{"id":42825,"date":"2024-09-13T10:36:01","date_gmt":"2024-09-13T03:36:01","guid":{"rendered":"https:\/\/digi-texx.com\/case-studies\/online-datenerfassung-historischer-todesanzeigen-mit-web-scraping-loesung\/"},"modified":"2026-05-21T10:44:45","modified_gmt":"2026-05-21T03:44:45","slug":"online-datenerfassung-historischer-todesanzeigen-mit-web-scraping-loesung","status":"publish","type":"case-studies","link":"https:\/\/digi-texx.com\/de\/case-studies\/online-datenerfassung-historischer-todesanzeigen-mit-web-scraping-loesung\/","title":{"rendered":"Online Datenerfassung historischer Todesanzeigen mit Web-Scraping-L\u00f6sung"},"content":{"rendered":"<div class=\"gb-container gb-container-049d4be1\"><div class=\"gb-inside-container\">\n\n<h2 class=\"gb-headline gb-headline-9ac0d6d3 gb-headline-text\"><span class=\"ez-toc-section\" id=\"Geschaeftliche_Herausforderungen\"><\/span>Gesch\u00e4ftliche Herausforderungen<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"gb-headline gb-headline-2e78daf4 gb-headline-text\"><span class=\"ez-toc-section\" id=\"Unser_Kunde\"><\/span><strong><strong><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\"><strong>Unser Kunde<\/strong><\/span><\/strong><\/strong><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Der Kunde von DIGI-TEXX ist der weltweit f\u00fchrende Anbieter von Familiengeschichte- und Genealogiedienstleistungen mit Hauptsitz in den USA. Im Rahmen von 20 Jahren Sammlung, Indexierung und Digitalisierung verwaltet das Unternehmen derzeit fast 7 Milliarden Datens\u00e4tze. Diese umfassen unter anderem Einwanderungsdaten, Milit\u00e4rdienst, Eheschlie\u00dfungen und vieles mehr.  <\/p>\n\n\n\n<h3 class=\"gb-headline gb-headline-fe55f590 gb-headline-text\"><span class=\"ez-toc-section\" id=\"Herausforderungen_des_Projekts\"><\/span><strong><strong><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\"><strong>Herausforderungen des Projekts<\/strong><\/span><\/strong><\/strong><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p><strong><em><strong><em><span style=\"color: var(--accent);\" class=\"stk-highlight\">Rekonstruktion historischer Profile<\/span><\/em><\/strong><\/em><\/strong><\/p>\n\n\n\n<p>Bei genealogischen Recherchen sind Todesanzeigen eine wahre Fundgrube an wichtigen Daten. Neben grundlegenden biografischen Informationen wie Name, Geburts- und Sterbedatum liefern sie auch Hinweise zu geografischen Standorten, Verwandtschaftsbeziehungen und weiteren relevanten Daten, die in anderen historischen Quellen oft schwer zu finden sind. <\/p>\n\n\n<style>.kb-image23436_597401-cd .kb-image-has-overlay:after{opacity:0.3;}<\/style>\n<div class=\"wp-block-kadence-image kb-image23436_597401-cd\"><figure class=\"aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"740\" height=\"416\" src=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/01.-Web-Scraping.jpg\" alt=\"Unveil Historical Obituary Data With Web Scraping Solution\" class=\"kb-img wp-image-23441\" title=\"\" srcset=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/01.-Web-Scraping.jpg 740w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/01.-Web-Scraping-300x169.jpg 300w\" sizes=\"auto, (max-width: 740px) 100vw, 740px\" \/><\/figure><\/div>\n\n\n\n<p>Allerdings bleibt die Erfassung und Verarbeitung von Todesanzeigen f\u00fcr unsere Kunden aus mehreren Gr\u00fcnden eine Herausforderung:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Umgang mit vielf\u00e4ltigen und umfangreichen Datenquellen:<\/span> <\/strong>Gro\u00dfe Mengen historischer Todesanzeigen sind \u00fcber Millionen digitaler Ressourcen verteilt, darunter Zeitungsarchive, Bibliotheken, Beh\u00f6rden, Kirchen, Universit\u00e4ten und Bestattungsunternehmen.<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Manuelle Ineffizienz:<\/span> <\/strong>Das manuelle Extrahieren und Indexieren unterschiedlicher Formate, Datentypen und komplexer Webstrukturen ist zeitaufwendig und kostenintensiv.<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Daten-Duplikate<\/span><\/strong>: Eine Information kann in mehreren Quellen vorhanden sein, wodurch die Bereinigung dieser Daten viel Zeit und Personal erfordert.<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Datenqualit\u00e4tssicherung:<\/span> <\/strong>Die Sicherstellung von Genauigkeit, Vollst\u00e4ndigkeit und Konsistenz ist aufgrund von Fehlern, unstrukturierten Daten und fehlenden Informationen schwierig.<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Unstrukturierter Freitext:<\/span><\/strong>: Nachrufe sind in einem narrativen, frei formulierten Stil verfasst; unsere L\u00f6sung musste daher \u00fcber einfaches Scraping hinausgehen, um die Inhalte semantisch zu \u201cverstehen\u201d.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"gb-headline gb-headline-25fbbbd3 gb-headline-text\"><span class=\"ez-toc-section\" id=\"Projektumfang\"><\/span><strong><strong><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Projektumfang<\/span><\/strong><\/strong><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Ziel des Projekts ist die Entwicklung einer robusten L\u00f6sung, die Kunden bei der automatisierten Erfassung historischer Todesanzeigen aus digitalen Quellen unterst\u00fctzt. Die erfassten Daten werden anschlie\u00dfend standardisiert, um Konsistenz und Qualit\u00e4t sicherzustellen. <\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Volumen: 450,000 Datens\u00e4tze pro URL bei 60 URLs pro Monat<\/li>\n\n\n\n<li>Die aus jedem Datensatz extrahierten Felder umfassen unter anderem den Namen der Person,das Geschlecht, Bilder, den Geburtsort, das Alter, den Wohnort, das Todesdatum, den Sterbeort sowie die Todesursache ( z.B. COVID-19, Kriegseinwirkungen, Krankheiten usw. )<\/li>\n<\/ul>\n\n<\/div><\/div><div class=\"gb-container gb-container-540b5898\"><div class=\"gb-inside-container\">\n\n<h2 class=\"gb-headline gb-headline-c2b72c8c gb-headline-text\"><span class=\"ez-toc-section\" id=\"Loesung\"><\/span><strong><strong>L\u00f6sung<\/strong><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<h3 class=\"gb-headline gb-headline-91203dbc gb-headline-text\"><span class=\"ez-toc-section\" id=\"Web-Scraping-Loesung_fuer_historische_Daten\"><\/span><strong><strong><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\"><span style=\"color: var(--accent);\" class=\"stk-highlight\"><strong>Web-Scraping-L\u00f6sung f\u00fcr historische Daten<\/strong><\/span><\/span><\/strong><\/strong><\/strong><span class=\"ez-toc-section-end\"><\/span><\/h3>\n\n\n\n<p>Um diese Herausforderungen zu bew\u00e4ltigen, entwickelte DIGI-TEXX eine fortgeschrittene Web-Scraping-L\u00f6sung zur Automatisierung der Erfassung und Verarbeitung historischer Todesanzeigendaten aus einer Vielzahl digitaler \u00f6ffentlicher Zeitungsarchive und Open-Source-Websites. Dadurch wird die Datenbank erweitert und den Nutzern Zugang zu Millionen neuer Datens\u00e4tze erm\u00f6glicht.  <\/p>\n\n\n<style>.kb-image23436_8253b8-20 .kb-image-has-overlay:after{opacity:0.3;}<\/style>\n<div class=\"wp-block-kadence-image kb-image23436_8253b8-20\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"576\" src=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-1024x576.jpg\" alt=\"Online Datenerfassung historischer Todesanzeigen mit Web-Scraping-L\u00f6sung\" class=\"kb-img wp-image-23468\" title=\"\" srcset=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-1024x576.jpg 1024w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-300x169.jpg 300w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-768x432.jpg 768w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-1536x864.jpg 1536w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/Web-Scraping-Chart-2048x1152.jpg 2048w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n\n<ol class=\"wp-block-list\">\n<li class=\"has-children\"><span class=\"list-item-text\"><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Automatisieter Web-Scraper<\/span>: <\/strong>Unsere L\u00f6sung konzentriert sich auf die architektonische Navigation sowie die Erfassung von Rohdaten aus unterschiedlichsten Online-Quellen.\n<\/span><ul class=\"wp-block-list\">\n<li>Die Engine durchsucht und indexiert verschiedene Plattformen, darunter digitale Zeitungen, Archiv-Websites und \u00f6ffentliche Register, unabh\u00e4ngig von der jeweiligen Seitenstruktur.<\/li>\n\n\n\n<li>Dateien in unterschiedlichen Formaten ( HTML, PDF und Bilddateien ) werden automatisch identifiziert und abgerufen, um sie anschlie\u00dfend in einer einheitlichen Umgebung weiterzuverarbeiten.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li class=\"has-children\"><span class=\"list-item-text\"><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Verarbeitung nat\u00fcrlicher Sprache (NLP) <\/span><\/strong>: Da Nachrufe \u00fcberwiegend aus unstrukturierten Freitexten bestehen, setzen wir fortschrittliche NLP-Modelle ein, um die Inhalte zu lesen und semantisch zu interpretieren.\n<\/span><ul class=\"wp-block-list\">\n<li>Unsere L\u00f6sung nutzt semantisches Parsing, um die narrative Struktur einer Lebensgeschichte zu verstehen und dabei pr\u00e4zise zwischen der verstorbenen Person und den hinterbliebenen Angeh\u00f6rigen zu unterscheiden<\/li>\n\n\n\n<li>Erz\u00e4hlende Abs\u00e4tze werden in strukturierte und kategorisierte Datenfehler ( z.B. Todesursache, Beruf oder Ausbildung ) transformiert, wodurch biografische Geschichten in durchsuchbare und nutzbare Datenbanken \u00fcberf\u00fchrt werden k\u00f6nnen.<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Datenvalidierung:<\/span> <\/strong>Die gesammelten Daten wurden bereinigt, standardisiert und an die Datenbankstruktur des Kunden angepasst.<\/li>\n<\/ol>\n\n<\/div><\/div><div class=\"gb-container gb-container-3c64cdaf\"><div class=\"gb-inside-container\">\n<div class=\"gb-grid-wrapper gb-grid-wrapper-84dc8722\">\n<div class=\"gb-grid-column gb-grid-column-31652cd0\"><div class=\"gb-container gb-container-31652cd0\"><div class=\"gb-inside-container\">\n\n<h2 class=\"gb-headline gb-headline-6c0964bb gb-headline-text\"><span class=\"ez-toc-section\" id=\"GESCHAeFTSERGEBNIS\"><\/span>GESCH\u00c4FTSERGEBNIS<span class=\"ez-toc-section-end\"><\/span><\/h2>\n\n\n\n<ul class=\"wp-block-list\">\n<li class=\"has-children\"><span class=\"list-item-text\"><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Optimierte Datenverarbeitungszeit:<\/span><\/strong>\n<\/span><ul class=\"wp-block-list\">\n<li>20-30 Minuten f\u00fcr einfache textbasierte URLs <\/li>\n\n\n\n<li>2-3 Tage f\u00fcr komplexere URLs<\/li>\n<\/ul>\n<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Erweiterte Datenbank:<\/span><\/strong> \u00dcber 450,000 Datens\u00e4tze pro URL wurden geliefert und damit die Datenbank erheblich erweitert sowie der Zugriff auf Millionen historischer Datens\u00e4tze erm\u00f6glicht.<\/li>\n\n\n\n<li><strong><span style=\"color: var(--accent);\" class=\"stk-highlight\">Verbesserte Datenqualit\u00e4t und Genauigkeit:<\/span><\/strong> Erreichte eine Genauigkeit von 95%, wodurch zuverl\u00e4ssige und pr\u00e4zise Todesanzeigendaten sichergestellt werden.<\/li>\n\n\n\n<li><span style=\"color: var(--accent);\" class=\"stk-highlight\"><strong>Unterst\u00fctzung von Machine Learning und KI-Anwendungen<\/strong><\/span>: Erstellung gro\u00dfer Datens\u00e4tze zur Verbesserung von Trainingsmethoden f\u00fcr h\u00f6here Genauigkeit und Leistung.<\/li>\n<\/ul>\n\n<\/div><\/div><\/div>\n\n<div class=\"gb-grid-column gb-grid-column-0123e88f\"><div class=\"gb-container gb-container-0123e88f\"><div class=\"gb-inside-container\">\n\n<figure class=\"gb-block-image gb-block-image-d804f78c\"><img loading=\"lazy\" decoding=\"async\" width=\"740\" height=\"416\" class=\"gb-image gb-image-d804f78c\" src=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/02.-Web-Scraping.jpg\" alt=\"Unveil Historical Obituary Data With Web Scraping Solution\" title=\"02. Web Scraping\" srcset=\"https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/02.-Web-Scraping.jpg 740w, https:\/\/digi-texx.com\/wp-content\/uploads\/2024\/09\/02.-Web-Scraping-300x169.jpg 300w\" sizes=\"auto, (max-width: 740px) 100vw, 740px\" \/><\/figure>\n\n<\/div><\/div><\/div>\n<\/div>\n<\/div><\/div>","protected":false},"excerpt":{"rendered":"<p>Web-Scraping-L\u00f6sung zur Automatisierung des Prozesses der Erfassung und Verarbeitung historischer Todesanzeigendaten aus einer gro\u00dfen Anzahl \u00f6ffentlicher digitaler Zeitungsarchive und Open-Source-Plattformen. <\/p>\n","protected":false},"featured_media":42830,"template":"","industries":[208],"class_list":["post-42825","case-studies","type-case-studies","status-publish","has-post-thumbnail","hentry","industries-historisches-archiv"],"acf":[],"_links":{"self":[{"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/case-studies\/42825","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/case-studies"}],"about":[{"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/types\/case-studies"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/media\/42830"}],"wp:attachment":[{"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/media?parent=42825"}],"wp:term":[{"taxonomy":"industries","embeddable":true,"href":"https:\/\/digi-texx.com\/de\/wp-json\/wp\/v2\/industries?post=42825"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}