Dịch vụ số hóa hồ sơ lịch sử tại Thư viện

Khách hàng của DIGI-TEXX là một trong những thư viện truyền thống và lâu đời nhất ở Đức. Họ lưu giữ một dãy sách ấn tượng có niên đại qua nhiều thế kỷ, phản ánh sự phong phú của nền văn minh nhân loại và sự đa dạng văn hóa.

DỊCH VỤ CUNG CẤP: Dịch vụ số hóa hồ sơ

Dịch vụ số hóa hồ sơ lịch sử tại Thư viện

THÁCH THỨC TỪ DOANH NGHIỆP

Về khách hàng của chúng tôi

Khách hàng của DIGI-TEXX là một trong những thư viện truyền thống và lâu đời nhất ở Đức. Họ lưu giữ một dãy sách ấn tượng có niên đại qua nhiều thế kỷ, phản ánh sự phong phú của nền văn minh nhân loại và sự đa dạng văn hóa. Trên hết, khách hàng của chúng tôi nổi tiếng về việc bảo vệ các bản thảo và hồ sơ lịch sử quý giá từ thế kỷ 14.

Những thách thức

Kho lưu trữ của khách hàng của chúng tôi chứa hơn 6 triệu tập sách in với bộ sưu tập phong phú các tạp chí, bản thảo và bản đồ, phản ánh sự phát triển học thuật hàng thế kỷ. Tất cả các tài liệu quan trọng trên cần được số hóa để quản lý tốt hơn và mở ra nền tảng dễ dàng truy cập cho độc giả và nhà nghiên cứu trên toàn cầu.

Trong hành trình chuyển đổi kỹ thuật số của họ, một số thách thức mà khách hàng của chúng tôi phải đối mặt là:

  • Thiếu lực lượng lao động để xử lý và số hóa một cách hiệu quả khối lượng lớn hồ sơ lịch sử mà họ sở hữu
  • Cần phải trích xuất chính xác một lượng lớn ký tự cổ viết tay
  • Các nhà cung cấp dịch vụ có giới hạn có khả năng xuất các tài liệu được tiến hành ở định dạng MARC 21

Phạm vi công việc

Nhận dạng và trích xuất các ký tự cổ bao gồm chữ cái, dấu câu, dấu cách, số, v.v.

Các loại tài liệu (cả in và viết tay):

  • Thông tin điều tra dân số trong các căn hộ và tòa nhà (tên, địa chỉ, nghề nghiệp, thông tin tòa nhà, v.v.)
  • Thông tin về công trình và cơ sở hạ tầng (tên nhân viên, năm thành lập, tuổi, thông tin lâu đài, v.v.)
  • Thông tin khảo sát
  • Tài liệu được viết bằng Fraktur – phong cách thư pháp phương Tây theo bảng chữ cái Latin

Ngôn ngữ: Tiếng Pháp cổ, tiếng Đức cổ

Khối lượng dự án: Hơn 10 triệu ký tự cổ cho một dự án

DỊCH VỤ SỐ HÓA HỒ SƠ LỊCH SỬ

Chúng tôi cung cấp

  • Quy trình xử lý dữ liệu áp dụng DIGI-XTRACT – Giải pháp Xử lý Tài liệu được xây dựng trên nền tảng công nghệ Machine Learning (ML) & Deep Learning (DL), để phân loại, phát hiện và trích xuất cả hồ sơ lịch sử chữ viết và chữ in
  • Lực lượng lao động giàu kinh nghiệm để xác nhận các ký tự cổ, đặc biệt là tiếng Đức cổ

Quy trình xử lý dữ liệu lịch sử

Chart-Digitization-Workflow Historical records

Hệ thống của DIGI-TEXX nhận tài liệu scan

Ứng dụng DIGI-XTRACT nhằm:

  • Phân loại chất lượng dữ liệu đầu vào
  • Phát hiện các trường bắt buộc 
  • Trích xuất dữ liệu 

Xác thực của con người để đảm bảo tỷ lệ chính xác của từng ký tự được trích xuất

Xuất đầu ra bao gồm hình ảnh và siêu dữ liệu

Truyền dữ liệu đến hệ thống khách hàng

KẾT QUẢ ĐẠT ĐƯỢC

  • Trích xuất ký tự cổ với độ chính xác cao: 98%
  • Xử lý 240.000 ký tự cổ trong 1 ngày
  • Kích hoạt dữ liệu có cấu trúc để lưu trữ và quản lý tài liệu lịch sử
  • Mở một nền tảng kỹ thuật số dễ tiếp cận để công chúng đọc và nghiên cứu các hồ sơ lịch sử
Historical Records Library BUSINESS OUTCOME

CÁC DỰ ÁN LIÊN QUAN

Data Preparation Service On ERP Systems Thumbnail

Dịch Vụ Xử Lý Dữ Liệu Trên Hệ Thống ERP

Khách hàng của DIGI-TEXX là một chuỗi cửa hàng bách hóa bán lẻ với hơn 90 địa điểm tại Đức. Khách hàng của chúng tôi cần dữ liệu sạch, chính xác và dễ truy cập để đảm bảo quản lý dữ liệu phù hợp trong hệ thống SAP, đưa ra quyết định sáng suốt và tối ưu hóa hoạt động.

Data Annotation and Labeling Social Media Data To Predict The Pandemic

Chú Thích Dữ Liệu Và Dán Nhãn Dữ Liệu Truyền Thông Xã Hội Để Dự Đoán Đại Dịch

DIGI-TEXX cung cấp dịch vụ chú thích văn bản mạnh mẽ với sự tham gia của con người, kết hợp sức mạnh của máy học, xử lý ngôn ngữ tự nhiên (NLP)...

Historical Obituary Data Collection With Web Scraping Solution

Thu Thập Dữ Liệu Cáo Phó Lịch Sử Trực Tuyến Với Giải Pháp Web Scraping

Giải pháp thu thập dữ liệu web để tự động thu thập và xử lý dữ liệu cáo phó lịch sử trên các kho lưu trữ báo kỹ thuật số công cộng và các trang web nguồn mở.

CHÚNG TÔI SẼ GIẢI QUYẾT CÁC KHÓ KHĂN CỦA BẠN