Geschäftliche Herausforderungen
Unser Kunde
Der Kunde von DIGI-TEXX ist ein Experte einer der führenden Forschungsuniversitäten im Herzen von Tokio, Japan. Mit einer Spezialisierung auf Umweltgesundheit und Geoinformatik führt der Kunde verschiedene Forschungsprojekte zu den Auswirkungen von Umweltveränderungen auf den Menschen unter Einsatz von maschinellem Lernen und NLP durch.
Der Kunde hat die Anwendung von maschinellem Lernen auf Daten zu krankheitsbezogenen Themen in sozialen Medien erforscht, die für die Vorhersage von Pandemiewellen genutzt werden können.

Herausforderungen des Projekts
Erkenntnisreiche Daten verbergen sich in täglichen Social-Media-Beiträgen
Angesichts der aktuellen Bedrohung der globalen Gesundheit durch COVID-19 sind Social-Media-Daten in den Fokus der Forscher gerückt. Insbesondere X bietet vielfältige Möglichkeiten, um unterschiedliche Facetten bei der Vorhersage potenzieller Krankheitsausbreitungen zu untersuchen.

Laut der National Library of Medicine, haben zahlreiche Studien durch die Erfassung von Suchindizes in sozialen Medien zu COVID-19-Symptomen gezeigt, dass neue Verdachtsfälle bereits 6–9 Tage oder sogar 1–2 Wochen früher vorhergesagt werden können als in offiziellen Aufzeichnungen.
Eine weitere Studie im Frontiers in Public Health Journal aus dem Jahr 2021 untersuchte digitale Datenströme als Frühwarnsignale für COVID-19-Ausbrüche in Kanada und den USA. Dabei wurde festgestellt, dass symptombezogene Posts auf X (Twitter) die beste Prognoseleistung erbrachten, indem 100% der ersten Wellen etwa 2–6 Tage früher als durch andere Datenströme vorhergesagt wurden.
Trotz der potenziellen Vorteile sozialer Medien für die Forschung sah sich unser Kunde mit mehreren Hürden konfrontiert. Das hohe Datenvolumen, das präzise annotiert werden muss, stellt in Verbindung mit engen Fristen eine erhebliche Herausforderung dar.
Zudem weisen die Daten der Zielplattform – X (Twitter) – in der Regel kurze Texte und häufig Abkürzungen, Hashtags usw., was das Verständnis der Kontextinformationen erschwert.
Projektumfang
Klassifizierung, Kennzeichnung und Kategorisierung von Nutzer-Tweets auf X (Twitter) basierend auf vordefinierten Kriterien: Schlüsselwörter, Phrasen und Stimmungen im Zusammenhang mit grippeähnlichen Symptomen.
- Datenvolumen: Die beträchtliche Datenmenge des Kunden, einschließlich 200.000 Tweets, muss innerhalb von 2 Monaten annotiert werden.
- Sprache: Kenntnisse in Englisch und Chinesisch sind erforderlich.
- Ethische Erwägungen: Einhaltung von Datenschutzbestimmungen und ethischen Richtlinien.
- Betriebszeit: 24/7
Lösung
Textannotation mit Natural Language Processing
DIGI-TEXX lieferte einen hybriden Textannotationsservice mit Human-in-the-Loop, der die Leistungsfähigkeit von maschinellem Lernen, Natural Language Processing (NLP) und einem Team hochqualifizierter Datenannotiertoren mit fortgeschrittenen Englisch- und Chinesischkenntnissen kombinierte. Dieser Ansatz optimierte die Ergebnisse für das Projekt und gewährleistete eine effiziente Annotation des großen Datensatzes.
Text annotation process:
- Data Pre-processing: Classify relevant categories and remove irrelevant data, duplicates, and noisy content.
- Schlüsselwort- und Stimmungsanalyse: Einsatz von NLP-Techniken zur Analyse und Identifizierung relevanter Schlüsselwörter und Phrasen im Zusammenhang mit grippeähnlichen Symptomen. Nutzung von Modellen des maschinellen Lernens zur Ermittlung der Stimmung, die mit den extrahierten Schlüsselwörtern und Phrasen verbunden ist.
- Daten-Labeling: Kennzeichnen Sie einen Teil der Daten mit relevanten Kategorien: „hohe Infektionswahrscheinlichkeit“ und „geringe Wahrscheinlichkeit oder unzureichende Informationen“, um präzise und effiziente Daten für kundenspezifische Anforderungen bereitzustellen.
- Qualitätssicherung: Unsere Annotatoren führten regelmäßige Qualitätssicherungsmaßnahmen durch, um die Genauigkeit und Konsistenz des Projekts zu überwachen. Darüber hinaus wurde ein Feedback-Kreislauf eingerichtet, um die Leistung kontinuierlich zu bewerten und zu verbessern.
- Datenexport und -bereitstellung: Lieferung des annotierten Datensatzes, der mit den Systemen des Kunden für weitere Analysen und Forschungsarbeiten kompatibel ist.

GESCHÄFTSERGEBNIS
- Präzise Annotation von 200.000 Chinese posts von X Plattformen.
- Abschluss des Projekts innerhalb von 2 Monaten.
- Genauigkeitsrate: 100%
- Bereitstellung qualitativ hochwertiger annotierter Daten zur Steigerung der Genauigkeit und Effizienz des KI-Algorithmus des Kunden.
- Die annotierten Daten können zur Entwicklung präziserer und zeitnaher Frühwarnsysteme für künftige Pandemien genutzt werden, was proaktive Maßnahmen ermöglicht.




