Datenannotation und Kennzeichnung von Social-Media-Daten zur Pandemievorhersage

Geschäftliche Herausforderungen

Unser Kunde

Der Kunde von DIGI-TEXX ist ein Experte einer der führenden Forschungsuniversitäten im Herzen von Tokio, Japan. Mit einer Spezialisierung auf Umweltgesundheit und Geoinformatik führt der Kunde verschiedene Forschungsprojekte zu den Auswirkungen von Umweltveränderungen auf den Menschen unter Einsatz von maschinellem Lernen und NLP durch.

Der Kunde hat die Anwendung von maschinellem Lernen auf Daten zu krankheitsbezogenen Themen in sozialen Medien erforscht, die für die Vorhersage von Pandemiewellen genutzt werden können.

Data Annotation and Labeling Social Media Data To Predict The Pandemic_Thumbnail

Herausforderungen des Projekts

Erkenntnisreiche Daten verbergen sich in täglichen Social-Media-Beiträgen

Angesichts der aktuellen Bedrohung der globalen Gesundheit durch COVID-19 sind Social-Media-Daten in den Fokus der Forscher gerückt. Insbesondere X bietet vielfältige Möglichkeiten, um unterschiedliche Facetten bei der Vorhersage potenzieller Krankheitsausbreitungen zu untersuchen.

Data Annotation and Labeling Social Media Data To Predict The Pandemic 2

Laut der National Library of Medicine, haben zahlreiche Studien durch die Erfassung von Suchindizes in sozialen Medien zu COVID-19-Symptomen gezeigt, dass neue Verdachtsfälle bereits 6–9 Tage oder sogar 1–2 Wochen früher vorhergesagt werden können als in offiziellen Aufzeichnungen.

Eine weitere Studie im Frontiers in Public Health Journal aus dem Jahr 2021 untersuchte digitale Datenströme als Frühwarnsignale für COVID-19-Ausbrüche in Kanada und den USA. Dabei wurde festgestellt, dass symptombezogene Posts auf X (Twitter) die beste Prognoseleistung erbrachten, indem 100% der ersten Wellen etwa 2–6 Tage früher als durch andere Datenströme vorhergesagt wurden.

Trotz der potenziellen Vorteile sozialer Medien für die Forschung sah sich unser Kunde mit mehreren Hürden konfrontiert. Das hohe Datenvolumen, das präzise annotiert werden muss, stellt in Verbindung mit engen Fristen eine erhebliche Herausforderung dar.

Zudem weisen die Daten der Zielplattform – X (Twitter) – in der Regel kurze Texte und häufig Abkürzungen, Hashtags usw., was das Verständnis der Kontextinformationen erschwert.

Projektumfang

Klassifizierung, Kennzeichnung und Kategorisierung von Nutzer-Tweets auf X (Twitter) basierend auf vordefinierten Kriterien: Schlüsselwörter, Phrasen und Stimmungen im Zusammenhang mit grippeähnlichen Symptomen.

Datenvolumen: Die beträchtliche Datenmenge des Kunden, einschließlich 200.000 Tweets, muss innerhalb von 2 Monaten annotiert werden.
Sprache: Kenntnisse in Englisch und Chinesisch sind erforderlich.
Ethische Erwägungen: Einhaltung von Datenschutzbestimmungen und ethischen Richtlinien.
Betriebszeit: 24/7

Lösung

Textannotation mit Natural Language Processing

DIGI-TEXX lieferte einen hybriden Textannotationsservice mit Human-in-the-Loop, der die Leistungsfähigkeit von maschinellem Lernen, Natural Language Processing (NLP) und einem Team hochqualifizierter Datenannotiertoren mit fortgeschrittenen Englisch- und Chinesischkenntnissen kombinierte. Dieser Ansatz optimierte die Ergebnisse für das Projekt und gewährleistete eine effiziente Annotation des großen Datensatzes.

Text annotation process:

Data Pre-processing: Classify relevant categories and remove irrelevant data, duplicates, and noisy content.
Schlüsselwort- und Stimmungsanalyse: Einsatz von NLP-Techniken zur Analyse und Identifizierung relevanter Schlüsselwörter und Phrasen im Zusammenhang mit grippeähnlichen Symptomen. Nutzung von Modellen des maschinellen Lernens zur Ermittlung der Stimmung, die mit den extrahierten Schlüsselwörtern und Phrasen verbunden ist.
Daten-Labeling: Kennzeichnen Sie einen Teil der Daten mit relevanten Kategorien: „hohe Infektionswahrscheinlichkeit“ und „geringe Wahrscheinlichkeit oder unzureichende Informationen“, um präzise und effiziente Daten für kundenspezifische Anforderungen bereitzustellen.
Qualitätssicherung: Unsere Annotatoren führten regelmäßige Qualitätssicherungsmaßnahmen durch, um die Genauigkeit und Konsistenz des Projekts zu überwachen. Darüber hinaus wurde ein Feedback-Kreislauf eingerichtet, um die Leistung kontinuierlich zu bewerten und zu verbessern.
Datenexport und -bereitstellung: Lieferung des annotierten Datensatzes, der mit den Systemen des Kunden für weitere Analysen und Forschungsarbeiten kompatibel ist.

Textannotation mit Natural Language Processing

GESCHÄFTSERGEBNIS

Präzise Annotation von 200.000 Chinese posts von X Plattformen.
Abschluss des Projekts innerhalb von 2 Monaten.
Genauigkeitsrate: 100%
Bereitstellung qualitativ hochwertiger annotierter Daten zur Steigerung der Genauigkeit und Effizienz des KI-Algorithmus des Kunden.
Die annotierten Daten können zur Entwicklung präziserer und zeitnaher Frühwarnsysteme für künftige Pandemien genutzt werden, was proaktive Maßnahmen ermöglicht.

Geschäftliche Herausforderungen

Unser Kunde

Herausforderungen des Projekts

Projektumfang

Lösung

Textannotation mit Natural Language Processing

GESCHÄFTSERGEBNIS

Bildverarbeitung für ein KI-gestütztes virtuelles Anprobieren

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System

Plattformübergreifende Datengenerierung zum Aufbau von Nutzerverhaltensdatensätzen für das KI-Agenten-Training

RECHTLICHES

STANDORTE

DIGI-TEXX Gebäude: Innovation Solution Center, ISC Hau Giang, 198 19 Thang 8 Straße, Vi Tan Bezirk

Datenannotation und Kennzeichnung von Social-Media-Daten zur Pandemievorhersage

Geschäftliche Herausforderungen

Unser Kunde

Herausforderungen des Projekts

Projektumfang

Lösung

Textannotation mit Natural Language Processing

GESCHÄFTSERGEBNIS

RELATED CASE STUDIES

Bildverarbeitung für ein KI-gestütztes virtuelles Anprobieren

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System

Plattformübergreifende Datengenerierung zum Aufbau von Nutzerverhaltensdatensätzen für das KI-Agenten-Training

SHARE YOUR CHALLENGES

RECHTLICHES

STANDORTE

DIGI-TEXX Gebäude: Innovation Solution Center, ISC Hau Giang, 198 19 Thang 8 Straße, Vi Tan Bezirk