THÁCH THỨC TỪ DOANH NGHIỆP
Khách Hàng Của Chúng Tôi
Khách hàng của DIGI-TEXX là nhà cung cấp dịch vụ phả hệ và lịch sử gia đình hàng đầu thế giới, có văn phòng chính đặt tại Hoa Kỳ. Là một phần trong 20 năm nỗ lực thu thập, lập chỉ mục và số hóa của công ty, hiện tại họ đang quản lý gần 7 tỷ hồ sơ. Những hồ sơ này bao gồm nhập cư, nghĩa vụ quân sự, hôn nhân và nhiều hơn nữa.
Thách Thức:
Theo dõi các hồ sơ lịch sử
Khi nói đến nghiên cứu phả hệ, cáo phó là kho tàng dữ liệu quan trọng. Ngoài các chi tiết tiểu sử cơ bản như tên, ngày sinh và ngày mất, chúng cung cấp thông tin chi tiết về vị trí địa lý, tên người thân và các dữ liệu quan trọng khác có thể khó tìm thấy trong các nguồn lịch sử khác.
Tuy nhiên, việc thu thập và xử lý dữ liệu cáo phó vẫn là một nhiệm vụ đầy thách thức đối với khách hàng của chúng tôi vì một số yếu tố:
- Xử lý các nguồn dữ liệu đa dạng và khổng lồ: Một lượng lớn dữ liệu cáo phó lịch sử nằm rải rác trên hàng triệu nguồn tài nguyên kỹ thuật số từ các tờ báo công cộng, thư viện, chính phủ, nhà thờ, trường đại học và trang web nhà tang lễ,…
- Hiệu quả thủ công kém: Việc trích xuất và lập chỉ mục thủ công các định dạng, kiểu dữ liệu và cấu trúc web phức tạp khác nhau rất tốn thời gian và chi phí.
- Trùng lặp dữ liệu: Một thông tin có thể được lưu trữ trên nhiều nguồn khác nhau, do đó, việc làm sạch dữ liệu này cần có thời gian và nhân lực.
- Đảm bảo chất lượng dữ liệu: Đảm bảo tính chính xác, đầy đủ và nhất quán của dữ liệu có thể trở nên khó khăn do lỗi, dữ liệu không có cấu trúc và thông tin bị thiếu
Phạm vi dự án
Dự án nhằm mục đích phát triển một giải pháp mạnh mẽ hỗ trợ khách hàng tự động thu thập dữ liệu cáo phó lịch sử trên các nguồn kỹ thuật số. Sau đó, dữ liệu thu thập được sẽ được chuẩn hóa để đảm bảo tính nhất quán và chất lượng thông tin.
- Khối lượng: 450.000 bản ghi trên mỗi URL với 60 URL/tháng
- Các trường được trích xuất trong mỗi bản ghi bao gồm tên người, hình ảnh giới tính, nơi sinh, tuổi, nơi cư trú, ngày mất, địa điểm, nguyên nhân tử vong,..
GIẢI PHÁP
Giải Pháp Thu Thập Dữ Liệu Lịch Sử Trên Web
Để giải quyết những thách thức này, DIGI-TEXX đã phát triển một giải pháp trích xuất web để tự động hóa quá trình thu thập và xử lý dữ liệu cáo phó lịch sử trên một số lượng lớn các kho lưu trữ báo công cộng kỹ thuật số và các trang web nguồn mở. Điều này sẽ cải thiện cơ sở dữ liệu, cung cấp cho người dùng quyền truy cập vào hàng triệu hồ sơ mới.
- Phát triển Scraper: Đội ngũ của chúng tôi đã tích hợp các thuật toán học máy và xử lý ngôn ngữ tự nhiên (NLP) để phát triển một công cụ thu thập dữ liệu web mạnh mẽ có các khả năng sau:
- Truy cập kho lưu trữ báo chí công cộng và các trang web trực tuyến bao gồm trường học, bệnh viện, nhà thờ, v.v.
- Điều hướng qua một loạt các sơ đồ trang web, phần và kết quả tìm kiếm
- Thu thập các trường dữ liệu cần thiết từ một trang web mục tiêu, bao gồm tên, nơi sinh, tuổi, ngày mất, nơi cư trú, nguyên nhân tử vong,…và hình ảnh của người đó.
- Việc hợp nhất dữ liệu đã thu thập vào một kho lưu trữ trung tâm đảm bảo mỗi cá nhân có một hồ sơ.
- Xử lý nhiều định dạng và cấu trúc dữ liệu khác nhau (PDF, HTML, hình ảnh)
- Xác thực dữ liệu: Dữ liệu thu thập được sẽ được làm sạch, chuẩn hóa và định dạng để phù hợp với cấu trúc cơ sở dữ liệu của Khách hàng.
KẾT QUẢ ĐẠT ĐƯỢC
- Thời gian xử lý dữ liệu được tối ưu hóa:
- 20-30 phút cho URL sử dụng văn bản
- 2-3 ngày cho URL phức tạp hơn
- Làm giàu Cơ sở dữ liệu: Cung cấp hơn 450,000 hồ sơ trên URL, mở rộng đáng kể cơ sở dữ liệu của khách hàng và cung cấp cho người dùng quyền truy cập vào hàng triệu bản ghi lịch sử.
- Nâng cao chất lượng và độ chính xác của dữ liệu: Đạt tỷ lệ chính xác là 95%, đảm bảo dữ liệu cáo phó đáng tin cậy và chính xác.
- Ứng dụng AI và Học máy mạnh mẽ: Tạo các tập dữ liệu lớn để đào tạo các mô hình học máy nhằm cải thiện độ chính xác và hiệu suất