Geschäftliche Herausforderungen
Unser Kunde
Der Kunde von DIGI-TEXX ist der weltweit führende Anbieter von Familiengeschichte- und Genealogiedienstleistungen mit Hauptsitz in den USA. Im Rahmen von 20 Jahren Sammlung, Indexierung und Digitalisierung verwaltet das Unternehmen derzeit fast 7 Milliarden Datensätze. Diese umfassen unter anderem Einwanderungsdaten, Militärdienst, Eheschließungen und vieles mehr.
Herausforderungen des Projekts
Rekonstruktion historischer Profile
Bei genealogischen Recherchen sind Todesanzeigen eine wahre Fundgrube an wichtigen Daten. Neben grundlegenden biografischen Informationen wie Name, Geburts- und Sterbedatum liefern sie auch Hinweise zu geografischen Standorten, Verwandtschaftsbeziehungen und weiteren relevanten Daten, die in anderen historischen Quellen oft schwer zu finden sind.

Allerdings bleibt die Erfassung und Verarbeitung von Todesanzeigen für unsere Kunden aus mehreren Gründen eine Herausforderung:
- Umgang mit vielfältigen und umfangreichen Datenquellen: Große Mengen historischer Todesanzeigen sind über Millionen digitaler Ressourcen verteilt, darunter Zeitungsarchive, Bibliotheken, Behörden, Kirchen, Universitäten und Bestattungsunternehmen.
- Manuelle Ineffizienz: Das manuelle Extrahieren und Indexieren unterschiedlicher Formate, Datentypen und komplexer Webstrukturen ist zeitaufwendig und kostenintensiv.
- Daten-Duplikate: Eine Information kann in mehreren Quellen vorhanden sein, wodurch die Bereinigung dieser Daten viel Zeit und Personal erfordert.
- Datenqualitätssicherung: Die Sicherstellung von Genauigkeit, Vollständigkeit und Konsistenz ist aufgrund von Fehlern, unstrukturierten Daten und fehlenden Informationen schwierig.
- Unstrukturierter Freitext:: Nachrufe sind in einem narrativen, frei formulierten Stil verfasst; unsere Lösung musste daher über einfaches Scraping hinausgehen, um die Inhalte semantisch zu “verstehen”.
Projektumfang
Ziel des Projekts ist die Entwicklung einer robusten Lösung, die Kunden bei der automatisierten Erfassung historischer Todesanzeigen aus digitalen Quellen unterstützt. Die erfassten Daten werden anschließend standardisiert, um Konsistenz und Qualität sicherzustellen.
- Volumen: 450,000 Datensätze pro URL bei 60 URLs pro Monat
- Die aus jedem Datensatz extrahierten Felder umfassen unter anderem den Namen der Person,das Geschlecht, Bilder, den Geburtsort, das Alter, den Wohnort, das Todesdatum, den Sterbeort sowie die Todesursache ( z.B. COVID-19, Kriegseinwirkungen, Krankheiten usw. )
Lösung
Web-Scraping-Lösung für historische Daten
Um diese Herausforderungen zu bewältigen, entwickelte DIGI-TEXX eine fortgeschrittene Web-Scraping-Lösung zur Automatisierung der Erfassung und Verarbeitung historischer Todesanzeigendaten aus einer Vielzahl digitaler öffentlicher Zeitungsarchive und Open-Source-Websites. Dadurch wird die Datenbank erweitert und den Nutzern Zugang zu Millionen neuer Datensätze ermöglicht.

- Automatisieter Web-Scraper: Unsere Lösung konzentriert sich auf die architektonische Navigation sowie die Erfassung von Rohdaten aus unterschiedlichsten Online-Quellen.
- Die Engine durchsucht und indexiert verschiedene Plattformen, darunter digitale Zeitungen, Archiv-Websites und öffentliche Register, unabhängig von der jeweiligen Seitenstruktur.
- Dateien in unterschiedlichen Formaten ( HTML, PDF und Bilddateien ) werden automatisch identifiziert und abgerufen, um sie anschließend in einer einheitlichen Umgebung weiterzuverarbeiten.
- Verarbeitung natürlicher Sprache (NLP) : Da Nachrufe überwiegend aus unstrukturierten Freitexten bestehen, setzen wir fortschrittliche NLP-Modelle ein, um die Inhalte zu lesen und semantisch zu interpretieren.
- Unsere Lösung nutzt semantisches Parsing, um die narrative Struktur einer Lebensgeschichte zu verstehen und dabei präzise zwischen der verstorbenen Person und den hinterbliebenen Angehörigen zu unterscheiden
- Erzählende Absätze werden in strukturierte und kategorisierte Datenfehler ( z.B. Todesursache, Beruf oder Ausbildung ) transformiert, wodurch biografische Geschichten in durchsuchbare und nutzbare Datenbanken überführt werden können.
- Datenvalidierung: Die gesammelten Daten wurden bereinigt, standardisiert und an die Datenbankstruktur des Kunden angepasst.
GESCHÄFTSERGEBNIS
- Optimierte Datenverarbeitungszeit:
- 20-30 Minuten für einfache textbasierte URLs
- 2-3 Tage für komplexere URLs
- Erweiterte Datenbank: Über 450,000 Datensätze pro URL wurden geliefert und damit die Datenbank erheblich erweitert sowie der Zugriff auf Millionen historischer Datensätze ermöglicht.
- Verbesserte Datenqualität und Genauigkeit: Erreichte eine Genauigkeit von 95%, wodurch zuverlässige und präzise Todesanzeigendaten sichergestellt werden.
- Unterstützung von Machine Learning und KI-Anwendungen: Erstellung großer Datensätze zur Verbesserung von Trainingsmethoden für höhere Genauigkeit und Leistung.




