Tài liệu viết tay đóng một vai trò quan trọng trong việc thể hiện giá trị văn hóa và lịch sử của một nền văn minh. Để bảo tồn kho tàng thông tin này, việc số hóa các tài liệu lịch sử viết tay bằng các chữ viết đa ngôn ngữ thành tài sản kỹ thuật số là điều bắt buộc.
Có thể thấy rằng sự phát triển của công nghệ hiện đại đã ảnh hưởng đáng kể đến việc tạo điều kiện cho khả năng tiếp cận các tài liệu cũ. Tuy nhiên, sự đa dạng và phức tạp của các hồ sơ cũ bằng các ngôn ngữ khác nhau như tiếng Đức cổ, Fraktur, Sanskrit, Hebrew và tiếng Hy Lạp cổ vẫn gây khó khăn trong việc số hóa tự động chúng.
Tìm Hiểu Quá Trình Số Hóa Tài Liệu Lịch Sử Viết Tay Đa Ngôn Ngữ
Để trích xuất một nguồn thông tin dồi dào được lưu trữ trong các tài liệu cũ, bước quan trọng là chuyển đổi văn bản viết tay thành định dạng có thể đọc được bằng máy. Quá trình truyền thống của việc số hóa văn bản viết tay bao gồm các phương pháp xử lý hình ảnh cổ điển và công việc nhập dữ liệu thủ công.
Khi nhận dạng văn bản viết tay trở thànhmột trong những lĩnh vực quan trọng nhất của nhận dạng mẫu trong những năm gần đây, nhiều nhà nghiên cứu đã đề xuất các kỹ thuật để tạo điều kiện cho khả năng phiên âm các kho lưu trữ lịch sử.
Nhận dạng ký tự quang học (OCR) – công nghệ chính để chụp và trích xuất các bản viết tay. Công nghệ này thường được triển khai theo hai bước chính:
- Đầu tiên, tất cả văn bản trong hình ảnh sẽ được tìm kiếm, giống như cắt nhỏ từng mảnh ghép ra
- Sau đó, khi tìm ra các nội dung của từng mảnh và ghép tất cả lại thành định dạng có thể đọc được bằng máy.
Với sự phát triển của thuật toán học máy và công nghệ OCR, các hệ thống Nhận dạng Ký tự Viết tay (HCR) như DIGI-XTRACT có thể phân tích bố cục tài liệu và nhận dạng chữ cái, dòng văn bản, đoạn văn và toàn bộ tài liệu.
Chuyển đổi văn bản viết tay thành tài sản kỹ thuật số
Khám Phá Những Thách Thức Trong Việc Số Hóa Tài Liệu Lịch Sử Viết Tay Đa Ngôn Ngữ
Tuy nhiên, do những đặc điểm độc đáo của các tài liệu, chẳng hạn như sự khác biệt về phong cách viết, các ký tự và từ chồng chéo và chú thích, việc số hóa những tài liệu lịch sử viết tay này vẫn là một nhiệm vụ đầy thách thức đối với các nhà nghiên cứu.
Các Biến Thể Trong Chữ Viết
Mỗi ngôn ngữ có sự khác nhau về hình dạng các chữ cái và cách kết nối các từ của nó. Việc nhận dạng văn bản viết tay có thể khó khăn do nhiều trở ngại. Trên thực tế, các phong cách viết khác nhau là một trong những yếu tố khó khăn nhất cản trở quá trình số hóa các tài liệu quý giá này.
Ngoài ra, những biến đổi về hình dạng và phong cách chữ có thể làm nhầm lẫn ngay cả những công cụ OCR tiên tiến nhất được đào tạo trên các phông chữ hiện đại, tiêu chuẩn hóa.
Hãy tưởng tượng bạn cố gắng đọc một tài liệu được viết bằng một phông chữ liên tục thay đổi giữa Comic Sans và Times New Roman – đó là thách thức của các biến thể chữ viết. Theo thời gian, các phong cách viết phát triển.
Dưới đây là một số ví dụ phổ biến về sự phức tạp trong phong cách viết tay:
- Blackletter and Italic: Các tài liệu Trung cổ Châu Âu thường sử dụng Blackletter, một chữ viết gai góc với những nét hoa mỹ phức tạp. OCR hiện đại gặp khó khăn với những nét hoa mỹ này, thường nhầm lẫn chúng với các phần của chữ cái. Chữ viết nghiêng, một thể loại chữ yêu thích khác của lịch sử, cũng có thể bị hiểu sai do tính chất nghiêng của nó.
- Fraktur là một loại Blackletter cụ thể đã trở nên rất phổ biến ở Đức. Phong cách viết này được sử dụng để viết tiếng Đức từ cuối thời Trung cổ (khoảng thế kỷ 15) cho đến giữa thế kỷ 20 (1941)[1]. Phong cách viết này gây nhầm lẫn để phân biệt với phong cách viết tiếng Đức hiện đại.
Các công cụ OCR tiên tiến có thể được đào tạo trên các biến thể chữ viết lịch sử cụ thể. Tuy nhiên, chúng yêu cầu các tập dữ liệu lớn của các tài liệu lịch sử được dán nhãn, thường khan hiếm đối với các chữ viết ít phổ biến hơn.
Nhận Dạng Đa Ngôn Ngữ
Đối với OCR, đọc một tài liệu chứa nhiều ngôn ngữ giống như chơi một trò chơi xếp hình với những mảnh ghép bị thiếu.
Hai ví dụ sau đây là hai lý do chính cho thấy sự khó khăn trong việc nhận dạng tài liệu đa ngôn ngữ:
- Phân Biệt Chữ Viết: Lấy Viên đá Rosetta làm ví dụ. Viên đá nổi tiếng này, có niên đại từ năm 196 trước Công nguyên, được khắc với một sắc lệnh bằng ba chữ viết khác nhau: chữ tượng hình Ai Cập cổ đại, chữ viết dân gian (được sử dụng cho việc viết hàng ngày ở Ai Cập cổ đại) và tiếng Hy Lạp cổ đại.
- Ngôn Ngữ Hỗn Hợp: Các tài liệu có từ của các ngôn ngữ khác nhau trong một câu tạo ra một thách thức thực sự. OCR có thể gặp khó khăn trong việc phân đoạn văn bản chính xác, dẫn đến các kết hợp vô nghĩa.
Một tài liệu lịch sử từ một khu vực đa ngôn ngữ có thể kết hợp các ngôn ngữ khác nhau trong một câu duy nhất. Hệ thống OCR hoặc HCR có khả năng hạn chế trong việc hiểu ngữ cảnh và phân tách các ngôn ngữ để nhận dạng chính xác.
Các nhà nghiên cứu đang phát triển các công cụ OCR đa ngôn ngữ có thể xác định các chữ viết khác nhau trong một tài liệu và áp dụng các mô hình nhận dạng phù hợp. Tuy nhiên, các mô hình này vẫn yêu cầu cải tiến đáng kể, đặc biệt đối với các ngôn ngữ ít phổ biến hơn.
Chất Lượng Tài Liệu Bị Suy Giảm
Thời gian ảnh hưởng đến mọi thứ, bao gồm cả tài liệu lịch sử. Và sự suy giảm của các tài liệu vật chất khiến việc số hóa trở nên khó khăn hơn, ví dụ:
- Phai màu mực: Theo thời gian, các tài liệu như thư, hồ sơ hoặc sách viết bằng mực có thể phai màu, khiến phần mềm OCR khó phân biệt các ký tự khỏi nền. Điều này có thể dẫn đến thông tin bị thiếu và lỗi.
- Rách và vết bẩn: Thiệt hại vật lý đối với tài liệu có thể tạo ra khoảng trống và méo mó làm nhầm lẫn phần mềm OCR. Nó có thể hiểu sai những điều này là các ký tự thực tế hoặc gặp khó khăn trong việc nhận dạng văn bản trong những khu vực đó.
Một tài liệu phai màu với một điều khoản thừa kế quan trọng có thể bị đọc sai nếu mực chứa tên người thụ hưởng cụ thể đã phai đáng kể.
Kỹ thuật tiền xử lý hình ảnh hoặccông nghệ nâng cao chất lượng hình ảnhcó thể được sử dụng để nâng cao chất lượng của các hình ảnh được quét bằng cách cải thiện độ tương phản và giảm nhiễu.
Tuy nhiên, trong một số trường hợp, sự can thiệp thủ công của các chuyên gia tài liệu lịch sử có thể cần thiết để giải mã các phần bị phai màu hoặc hư hỏng.
Thiếu Dữ Liệu Đào Tạo
Học máy – xương sống của OCR hiện đại, phát triển nhờ dữ liệu. Do đó, sự khan hiếm dữ liệu sẽ cản trở việc số hóa tài liệu lịch sử theo nhiều cách khác nhau:
- Các chữ viết hiếm: Các chữ viết lịch sử ít phổ biến hơn có thể cần một lượng lớn hơn các tài liệu được số hóa và dán nhãn để đào tạo các công cụ OCR hoặc HCR. Điều này dẫn đến việc nhận dạng không chính xác các chữ viết đó.
- Biến thể phương ngữ: Các tài liệu lịch sử có thể sử dụng các từ ngữ địa phương với cách viết hoặc biến thể ký tự cụ thể. Không có dữ liệu đào tạo dành riêng cho các phương ngữ đó, công cụ OCR hoặc HCR gặp khó khăn trong việc nhận dạng chính xác chúng.
Khi số hóa một tài liệu được viết bằng một phương ngữ địa phương của tiếng Ả Rập, một công cụ OCR tiếng Ả Rập tiêu chuẩn được đào tạo trên văn bản hiện đại, tiêu chuẩn hóa có thể không nhận ra các biến thể phương ngữ, dẫn đến lỗi đáng kể.
Các nhà nghiên cứu đang khám phá các cách để tận dụng các kỹ thuật học chuyển giao, trong đó các mô hình được đào tạo trên một chữ viết có thể được điều chỉnh cho các chữ viết lịch sử liên quan. Điều này có thể giúp giải quyết sự khan hiếm dữ liệu đào tạo cho các ngôn ngữ cụ thể.
Hiểu Ngữ Cảnh
Các tài liệu lịch sử thường vượt xa văn bản đơn giản. Để phiên âm chính xác các tài liệu quan trọng này, cần hiểu những sắc thái của ngôn ngữ, ngữ cảnh của tài liệu khi nó được xuất bản lần đầu, văn hóa khu vực nơi sinh ra tài liệu, v.v.
Một số ví dụ cho thấy tầm quan trọng của việc hiểu ngữ cảnh của các tài liệu lịch sử:
- Từ viết tắt: Các tài liệu lịch sử chứa đầy các từ viết tắt cụ thể cho một thời kỳ hoặc nghề nghiệp. OCR không hiểu ngữ cảnh và có thể hiểu sai chúng. Ví dụ: Một tài liệu y tế có thể sử dụng từ viết tắt như “Bx” cho sinh thiết. OCR sẽ không hiểu điều này nếu không có kiến thức trước về thuật ngữ y tế từ thời đó.
- Ký hiệu và tốc ký: Các thư ký sử dụng các ký hiệu và ký hiệu tốc ký khác nhau để tiết kiệm không gian. OCR không thể giải mã các ký hiệu này mà không có thông tin bổ sung về ý nghĩa của chúng.
Các mô hình OCR tiên tiến đang được phát triển để kết hợp thông tin ngữ cảnh từ từ điển và thuật ngữ lịch sử. Bằng cách đó, họ sẽ có thể nhận ra các từ viết tắt và ký hiệu một cách chính xác.
Tạo Điều Kiện Cho Quá Trình Số Hóa Tài Liệu Lịch Sử Viết Tay Đa Ngôn Ngữ
Như đã đề cập ở trên, Học máy là một trong những kỹ thuật chính để nâng cao khả năng của các hệ thống OCR hoặc HCR.
Để các công cụ này số hóa tài liệu lịch sử một cách chính xác, chất lượng của các hình ảnh được xử lý trước là một trong những ưu tiên hàng đầu cần xem xét. Phần lớn các tài liệu đã được in hoặc viết trên giấy thường nhiều năm trước, có tuổi thọ hạn chế và phân hủy theo thời gian.
Trong hầu hết các trường hợp, các hình ảnh được chụp của những tài liệu này đều có chất lượng kém (ánh sáng và màu sắc xấu, góc độ không chính xác, v.v.).
Nâng cao chất lượng hình ảnhlà một kỹ thuật đặc biệt được áp dụng trong bước tiền xử lý để chuyển đổi hình ảnh và làm cho chúng phù hợp hơn với các thuật toán thị giác máy tính trong các giai đoạn xử lý sau.
Sự Phát Triển Không Ngừng Để Bảo Tồn Di Sản Quý Qiá Từ Quá Khứ Của Chúng Ta
Số hóa tài liệu lịch sử bằng các ngôn ngữ khác nhau là một nỗ lực đầy thách thức trên con đường bảo tồn kỹ thuật số. Trong đó biến thể chữ viết, nhận dạng đa ngôn ngữ, chất lượng tài liệu bị suy giảm và thiếu dữ liệu đào tạo đều là những trở ngại ở thời điểm hiện tại.
Tuy nhiên, các nhà nghiên cứu luôn luôn đổi mới. Thông qua hợp tác với các đối tác công nghệ, các nhà nghiên cứu có thể sử dụng các kỹ thuật xử lý tài liệu và dữ liệu sẵn sàng sử dụng để tạo điều kiện cho quá trình nghiên cứu và có được những hiểu biết quý giá về những bí mật đằng sau những kho báu lịch sử này.
Tương lai của việc số hóa tài liệu lịch sử đang sáng sủa, hứa hẹn khả năng tiếp cận rộng hơn và hiểu sâu hơn về quá khứ của chúng ta.