Online Datenerfassung historischer Todesanzeigen mit Web-Scraping-Lösung

Der Kunde von DIGI-TEXX ist der weltweit führende Anbieter von Familiengeschichte- und Genealogiedienstleistungen mit Hauptsitz in den USA. Im Rahmen von 20 Jahren Sammlung, Indexierung und Digitalisierung verwaltet das Unternehmen derzeit fast 7 Milliarden Datensätze. Diese umfassen unter anderem E

SERVICE OFFERS: Lösung zur Web-Datenerfassung historischer Daten

Geschäftliche Herausforderungen

Unser Kunde

Der Kunde von DIGI-TEXX ist der weltweit führende Anbieter von Familiengeschichte- und Genealogiedienstleistungen mit Hauptsitz in den USA. Im Rahmen von 20 Jahren Sammlung, Indexierung und Digitalisierung verwaltet das Unternehmen derzeit fast 7 Milliarden Datensätze. Diese umfassen unter anderem Einwanderungsdaten, Militärdienst, Eheschließungen und vieles mehr.

Herausforderungen des Projekts

Rekonstruktion historischer Profile

Bei genealogischen Recherchen sind Todesanzeigen eine wahre Fundgrube an wichtigen Daten. Neben grundlegenden biografischen Informationen wie Name, Geburts- und Sterbedatum liefern sie auch Hinweise zu geografischen Standorten, Verwandtschaftsbeziehungen und weiteren relevanten Daten, die in anderen historischen Quellen oft schwer zu finden sind.

Unveil Historical Obituary Data With Web Scraping Solution

Allerdings bleibt die Erfassung und Verarbeitung von Todesanzeigen für unsere Kunden aus mehreren Gründen eine Herausforderung:

  • Umgang mit vielfältigen und umfangreichen Datenquellen: Große Mengen historischer Todesanzeigen sind über Millionen digitaler Ressourcen verteilt, darunter Zeitungsarchive, Bibliotheken, Behörden, Kirchen, Universitäten und Bestattungsunternehmen.
  • Manuelle Ineffizienz: Das manuelle Extrahieren und Indexieren unterschiedlicher Formate, Datentypen und komplexer Webstrukturen ist zeitaufwendig und kostenintensiv.
  • Daten-Duplikate: Eine Information kann in mehreren Quellen vorhanden sein, wodurch die Bereinigung dieser Daten viel Zeit und Personal erfordert.
  • Datenqualitätssicherung: Die Sicherstellung von Genauigkeit, Vollständigkeit und Konsistenz ist aufgrund von Fehlern, unstrukturierten Daten und fehlenden Informationen schwierig.
  • Unstrukturierter Freitext:: Nachrufe sind in einem narrativen, frei formulierten Stil verfasst; unsere Lösung musste daher über einfaches Scraping hinausgehen, um die Inhalte semantisch zu “verstehen”.

Projektumfang

Ziel des Projekts ist die Entwicklung einer robusten Lösung, die Kunden bei der automatisierten Erfassung historischer Todesanzeigen aus digitalen Quellen unterstützt. Die erfassten Daten werden anschließend standardisiert, um Konsistenz und Qualität sicherzustellen.

  • Volumen: 450,000 Datensätze pro URL bei 60 URLs pro Monat
  • Die aus jedem Datensatz extrahierten Felder umfassen unter anderem den Namen der Person,das Geschlecht, Bilder, den Geburtsort, das Alter, den Wohnort, das Todesdatum, den Sterbeort sowie die Todesursache ( z.B. COVID-19, Kriegseinwirkungen, Krankheiten usw. )

Lösung

Web-Scraping-Lösung für historische Daten

Um diese Herausforderungen zu bewältigen, entwickelte DIGI-TEXX eine fortgeschrittene Web-Scraping-Lösung zur Automatisierung der Erfassung und Verarbeitung historischer Todesanzeigendaten aus einer Vielzahl digitaler öffentlicher Zeitungsarchive und Open-Source-Websites. Dadurch wird die Datenbank erweitert und den Nutzern Zugang zu Millionen neuer Datensätze ermöglicht.

Online Datenerfassung historischer Todesanzeigen mit Web-Scraping-Lösung
  1. Automatisieter Web-Scraper: Unsere Lösung konzentriert sich auf die architektonische Navigation sowie die Erfassung von Rohdaten aus unterschiedlichsten Online-Quellen.
    • Die Engine durchsucht und indexiert verschiedene Plattformen, darunter digitale Zeitungen, Archiv-Websites und öffentliche Register, unabhängig von der jeweiligen Seitenstruktur.
    • Dateien in unterschiedlichen Formaten ( HTML, PDF und Bilddateien ) werden automatisch identifiziert und abgerufen, um sie anschließend in einer einheitlichen Umgebung weiterzuverarbeiten.
  2. Verarbeitung natürlicher Sprache (NLP) : Da Nachrufe überwiegend aus unstrukturierten Freitexten bestehen, setzen wir fortschrittliche NLP-Modelle ein, um die Inhalte zu lesen und semantisch zu interpretieren.
    • Unsere Lösung nutzt semantisches Parsing, um die narrative Struktur einer Lebensgeschichte zu verstehen und dabei präzise zwischen der verstorbenen Person und den hinterbliebenen Angehörigen zu unterscheiden
    • Erzählende Absätze werden in strukturierte und kategorisierte Datenfehler ( z.B. Todesursache, Beruf oder Ausbildung ) transformiert, wodurch biografische Geschichten in durchsuchbare und nutzbare Datenbanken überführt werden können.
  3. Datenvalidierung: Die gesammelten Daten wurden bereinigt, standardisiert und an die Datenbankstruktur des Kunden angepasst.

GESCHÄFTSERGEBNIS

  • Optimierte Datenverarbeitungszeit:
    • 20-30 Minuten für einfache textbasierte URLs
    • 2-3 Tage für komplexere URLs
  • Erweiterte Datenbank: Über 450,000 Datensätze pro URL wurden geliefert und damit die Datenbank erheblich erweitert sowie der Zugriff auf Millionen historischer Datensätze ermöglicht.
  • Verbesserte Datenqualität und Genauigkeit: Erreichte eine Genauigkeit von 95%, wodurch zuverlässige und präzise Todesanzeigendaten sichergestellt werden.
  • Unterstützung von Machine Learning und KI-Anwendungen: Erstellung großer Datensätze zur Verbesserung von Trainingsmethoden für höhere Genauigkeit und Leistung.
Unveil Historical Obituary Data With Web Scraping Solution

RELATED CASE STUDIES

Image Processing for Enhancing Virtual Try-on AI Model

Bildverarbeitung für ein KI-gestütztes virtuelles Anprobieren

DIGI-TEXX hat eine virtuelle Anprobe von Kleidung mit KI gezielt weiterentwickelt, um die Qualität KI-generierter Modevisualisierungen deutlich zu verbessern.

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System 3

Vehicle Annotation To Enhance Traffic Monitoring And AI-Powered Security System

DIGI-TEXX provided vehicle annotation to enhance traffic monitoring and AI-powered security systems. This improved automated surveillance accuracy, enabling precise vehicle classification and anomaly detection in complex environments.

Data Generation on Multiple Platforms to Build User Behavior Datasets for AI Agent Training 9

Plattformübergreifende Datengenerierung zum Aufbau von Nutzerverhaltensdatensätzen für das KI-Agenten-Training

DIGI-TEXX lieferte eine groß angelegte Datengenerierung auf mehreren Plattformen, die reale Benutzerinteraktionen über Online- und Unternehmenssysteme hinweg simulierte

SHARE YOUR CHALLENGES