Datenannotation und Kennzeichnung von Social-Media-Daten zur Pandemievorhersage

DIGI-TEXX stellte einen hybriden Textannotationsprozess mit menschlicher Einbindung bereit, bei dem maschinelles Lernen, Natural Language Processing (NLP) und ein Team hochqualifizierter englischer und chinesischer Linguisten kombiniert wurden, um die Fähigkeit der Maschine zur Erkennung und Vorhers

SERVICE OFFERS: Datenannotation

Geschäftliche Herausforderungen

Unser Kunde

Der Kunde von DIGI-TEXX ist ein Experte einer der führenden Forschungsuniversitäten im Herzen von Tokio, Japan. Mit einer Spezialisierung auf Umweltgesundheit und Geoinformatik führt der Kunde verschiedene Forschungsprojekte zu den Auswirkungen von Umweltveränderungen auf den Menschen unter Einsatz von maschinellem Lernen und NLP durch.

Der Kunde hat die Anwendung von maschinellem Lernen auf Daten zu krankheitsbezogenen Themen in sozialen Medien erforscht, die für die Vorhersage von Pandemiewellen genutzt werden können.

Data Annotation and Labeling Social Media Data To Predict The Pandemic_Thumbnail

Herausforderungen des Projekts

Erkenntnisreiche Daten verbergen sich in täglichen Social-Media-Beiträgen

Angesichts der aktuellen Bedrohung der globalen Gesundheit durch COVID-19 sind Social-Media-Daten in den Fokus der Forscher gerückt. Insbesondere X bietet vielfältige Möglichkeiten, um unterschiedliche Facetten bei der Vorhersage potenzieller Krankheitsausbreitungen zu untersuchen.

Data Annotation and Labeling Social Media Data To Predict The Pandemic 2

Laut der National Library of Medicine, haben zahlreiche Studien durch die Erfassung von Suchindizes in sozialen Medien zu COVID-19-Symptomen gezeigt, dass neue Verdachtsfälle bereits 6–9 Tage oder sogar 1–2 Wochen früher vorhergesagt werden können als in offiziellen Aufzeichnungen.

Eine weitere Studie im Frontiers in Public Health Journal aus dem Jahr 2021 untersuchte digitale Datenströme als Frühwarnsignale für COVID-19-Ausbrüche in Kanada und den USA. Dabei wurde festgestellt, dass symptombezogene Posts auf X (Twitter) die beste Prognoseleistung erbrachten, indem 100% der ersten Wellen etwa 2–6 Tage früher als durch andere Datenströme vorhergesagt wurden.

Trotz der potenziellen Vorteile sozialer Medien für die Forschung sah sich unser Kunde mit mehreren Hürden konfrontiert. Das hohe Datenvolumen, das präzise annotiert werden muss, stellt in Verbindung mit engen Fristen eine erhebliche Herausforderung dar.

Zudem weisen die Daten der Zielplattform – X (Twitter) – in der Regel kurze Texte und häufig Abkürzungen, Hashtags usw., was das Verständnis der Kontextinformationen erschwert.

Projektumfang

Klassifizierung, Kennzeichnung und Kategorisierung von Nutzer-Tweets auf X (Twitter) basierend auf vordefinierten Kriterien: Schlüsselwörter, Phrasen und Stimmungen im Zusammenhang mit grippeähnlichen Symptomen.

  • Datenvolumen: Die beträchtliche Datenmenge des Kunden, einschließlich 200.000 Tweets, muss innerhalb von 2 Monaten annotiert werden.
  • Sprache: Kenntnisse in Englisch und Chinesisch sind erforderlich.
  • Ethische Erwägungen: Einhaltung von Datenschutzbestimmungen und ethischen Richtlinien.
  • Betriebszeit: 24/7

Lösung

Textannotation mit Natural Language Processing

DIGI-TEXX lieferte einen hybriden Textannotationsservice mit Human-in-the-Loop, der die Leistungsfähigkeit von maschinellem Lernen, Natural Language Processing (NLP) und einem Team hochqualifizierter Datenannotiertoren mit fortgeschrittenen Englisch- und Chinesischkenntnissen kombinierte. Dieser Ansatz optimierte die Ergebnisse für das Projekt und gewährleistete eine effiziente Annotation des großen Datensatzes.

Text annotation process:

  1. Data Pre-processing: Classify relevant categories and remove irrelevant data, duplicates, and noisy content.
  2. Schlüsselwort- und Stimmungsanalyse: Einsatz von NLP-Techniken zur Analyse und Identifizierung relevanter Schlüsselwörter und Phrasen im Zusammenhang mit grippeähnlichen Symptomen. Nutzung von Modellen des maschinellen Lernens zur Ermittlung der Stimmung, die mit den extrahierten Schlüsselwörtern und Phrasen verbunden ist.
  3. Daten-Labeling: Kennzeichnen Sie einen Teil der Daten mit relevanten Kategorien: „hohe Infektionswahrscheinlichkeit“ und „geringe Wahrscheinlichkeit oder unzureichende Informationen“, um präzise und effiziente Daten für kundenspezifische Anforderungen bereitzustellen.
  4. Qualitätssicherung: Unsere Annotatoren führten regelmäßige Qualitätssicherungsmaßnahmen durch, um die Genauigkeit und Konsistenz des Projekts zu überwachen. Darüber hinaus wurde ein Feedback-Kreislauf eingerichtet, um die Leistung kontinuierlich zu bewerten und zu verbessern.
  5. Datenexport und -bereitstellung: Lieferung des annotierten Datensatzes, der mit den Systemen des Kunden für weitere Analysen und Forschungsarbeiten kompatibel ist.
Textannotation mit Natural Language Processing

GESCHÄFTSERGEBNIS

  • Präzise Annotation von 200.000 Chinese posts von X Plattformen.
  • Abschluss des Projekts innerhalb von 2 Monaten.
  • Genauigkeitsrate: 100%
  • Bereitstellung qualitativ hochwertiger annotierter Daten zur Steigerung der Genauigkeit und Effizienz des KI-Algorithmus des Kunden.
  • Die annotierten Daten können zur Entwicklung präziserer und zeitnaher Frühwarnsysteme für künftige Pandemien genutzt werden, was proaktive Maßnahmen ermöglicht.
Datenannotation und Kennzeichnung von Social-Media-Daten zur Pandemievorhersage

RELATED CASE STUDIES

Image Processing for Enhancing Virtual Try-on AI Model

Bildverarbeitung für ein KI-gestütztes virtuelles Anprobieren

DIGI-TEXX hat eine virtuelle Anprobe von Kleidung mit KI gezielt weiterentwickelt, um die Qualität KI-generierter Modevisualisierungen deutlich zu verbessern.

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System 3

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System

DIGI-TEXX provided vehicle annotation to enhance traffic monitoring and AI-powered security systems. This improved automated surveillance accuracy, enabling precise vehicle classification and anomaly detection in complex environments.

Data Generation on Multiple Platforms to Build User Behavior Datasets for AI Agent Training 9

Plattformübergreifende Datengenerierung zum Aufbau von Nutzerverhaltensdatensätzen für das KI-Agenten-Training

DIGI-TEXX lieferte eine groß angelegte Datengenerierung auf mehreren Plattformen, die reale Benutzerinteraktionen über Online- und Unternehmenssysteme hinweg simulierte

SHARE YOUR CHALLENGES