THÁCH THỨC TỪ DOANH NGHIỆP
Về khách hàng của chúng tôi
Khách hàng của DIGI-TEXX là một trong những thư viện truyền thống và lâu đời nhất ở Đức. Họ lưu giữ một dãy sách ấn tượng có niên đại qua nhiều thế kỷ, phản ánh sự phong phú của nền văn minh nhân loại và sự đa dạng văn hóa. Trên hết, khách hàng của chúng tôi nổi tiếng về việc bảo vệ các bản thảo và hồ sơ lịch sử quý giá từ thế kỷ 14.
Những thách thức
Kho lưu trữ của khách hàng của chúng tôi chứa hơn 6 triệu tập sách in với bộ sưu tập phong phú các tạp chí, bản thảo và bản đồ, phản ánh sự phát triển học thuật hàng thế kỷ. Tất cả các tài liệu quan trọng trên cần được số hóa để quản lý tốt hơn và mở ra nền tảng dễ dàng truy cập cho độc giả và nhà nghiên cứu trên toàn cầu.
Trong hành trình chuyển đổi kỹ thuật số của họ, một số thách thức mà khách hàng của chúng tôi phải đối mặt là:
- Thiếu lực lượng lao động để xử lý và số hóa một cách hiệu quả khối lượng lớn hồ sơ lịch sử mà họ sở hữu
- Cần phải trích xuất chính xác một lượng lớn ký tự cổ viết tay
- Các nhà cung cấp dịch vụ có giới hạn có khả năng xuất các tài liệu được tiến hành ở định dạng MARC 21
Phạm vi công việc
Nhận dạng và trích xuất các ký tự cổ bao gồm chữ cái, dấu câu, dấu cách, số, v.v.
Các loại tài liệu (cả in và viết tay):
- Thông tin điều tra dân số trong các căn hộ và tòa nhà (tên, địa chỉ, nghề nghiệp, thông tin tòa nhà, v.v.)
- Thông tin về công trình và cơ sở hạ tầng (tên nhân viên, năm thành lập, tuổi, thông tin lâu đài, v.v.)
- Thông tin khảo sát
- Tài liệu được viết bằng Fraktur – phong cách thư pháp phương Tây theo bảng chữ cái Latin
Ngôn ngữ: Tiếng Pháp cổ, tiếng Đức cổ
Khối lượng dự án: Hơn 10 triệu ký tự cổ cho một dự án
DỊCH VỤ SỐ HÓA HỒ SƠ LỊCH SỬ
Chúng tôi cung cấp
- Quy trình xử lý dữ liệu áp dụng DIGI-XTRACT – Giải pháp Xử lý Tài liệu được xây dựng trên nền tảng công nghệ Machine Learning (ML) & Deep Learning (DL), để phân loại, phát hiện và trích xuất cả hồ sơ lịch sử chữ viết và chữ in
- Lực lượng lao động giàu kinh nghiệm để xác nhận các ký tự cổ, đặc biệt là tiếng Đức cổ
Quy trình xử lý dữ liệu lịch sử
Hệ thống của DIGI-TEXX nhận tài liệu scan
Ứng dụng DIGI-XTRACT nhằm:
Xác thực của con người để đảm bảo tỷ lệ chính xác của từng ký tự được trích xuất
Xuất đầu ra bao gồm hình ảnh và siêu dữ liệu
Truyền dữ liệu đến hệ thống khách hàng
KẾT QUẢ ĐẠT ĐƯỢC
- Trích xuất ký tự cổ với độ chính xác cao: 98%
- Xử lý 240.000 ký tự cổ trong 1 ngày
- Kích hoạt dữ liệu có cấu trúc để lưu trữ và quản lý tài liệu lịch sử
- Mở một nền tảng kỹ thuật số dễ tiếp cận để công chúng đọc và nghiên cứu các hồ sơ lịch sử