THÁCH THỨC TỪ DOANH NGHIỆP
Khách Hàng Của Chúng Tôi
Khách hàng của DIGI-TEXX là một chuyên gia đến từ các trường đại học nghiên cứu hàng đầu tại trung tâm Tokyo, Nhật Bản. Với chuyên môn về sức khỏe môi trường và khoa học thông tin không gian, khách hàng tiến hành nhiều nghiên cứu khác nhau về tác động của những thay đổi môi trường đối với con người bằng cách sử dụng máy học và NLP.
Khách hàng đã nghiên cứu ứng dụng máy học vào dữ liệu từ các chủ đề liên quan đến bệnh tật trên mạng xã hội, có thể áp dụng để dự đoán làn sóng đại dịch.
Thách Thức:
Dữ liệu sâu sắc nằm trong bài đăng trên mạng xã hội hàng ngày
Quay trở lại hiện tại, chứng kiến mối đe dọa của COVID-19 đối với sức khỏe toàn cầu, dữ liệu mạng xã hội đã nhận được sự chú ý của các nhà nghiên cứu. Đặc biệt là X (Twitter), có thể được sử dụng để khám phá nhiều khía cạnh trong việc dự báo khả năng lây lan bệnh tật.
Theo Thư viện Y khoa Quốc gia, bằng cách thu thập các chỉ mục tìm kiếm trên mạng xã hội về các triệu chứng của COVID-19, nhiều nghiên cứu đã chỉ ra rằng các trường hợp nghi ngờ mới được dự báo trước 6–9 ngày hoặc thậm chí sớm hơn tới 1-2 tuần so với hồ sơ chính thức.
Trong Tạp chí Frontiers in Public Health Journal vào năm 2021, xem xét các luồng dữ liệu kỹ thuật số như những tín hiệu ban đầu về sự bùng phát COVID-19 ở Canada và Hoa Kỳ. Họ phát hiện ra rằng các bài đăng liên quan đến triệu chứng từ X (Twitter) cho thấy hiệu suất dự đoán tốt nhất bằng cách dự đoán 100% các đợt đầu tiên sớm hơn khoảng 2–6 ngày so với các luồng dữ liệu khác.
Mặc dù phương tiện truyền thông xã hội có nhiều lợi thế tiềm năng cho nghiên cứu, khách hàng của chúng tôi đã gặp phải một số rào cản. Khối lượng dữ liệu lớn cần được chú thích chính xác cùng với thời hạn gấp rút là một thách thức đáng kể đối với họ.
Ngoài ra, dữ liệu của nền tảng mục tiêu – X (Twitter), thường có văn bản ngắn và sử dụng phổ biến các chữ viết tắt, hashtag, v.v., khiến việc hiểu thông tin theo ngữ cảnh trở nên khó khăn.
Phạm vi dự án
Phân loại, gắn nhãn và sắp xếp các tweet của người dùng trên X (Twitter) dựa trên các tiêu chí được xác định trước: từ khóa, cụm từ và cảm xúc liên quan đến các triệu chứng giống cúm.
- Khối lượng dữ liệu: Dữ liệu lớn của khách hàng, bao gồm 200.000 tweet, cần được chú thích trong vòng 2 tháng.
- Ngôn ngữ: Yêu cầu thành thạo tiếng Anh và tiếng Trung.
- Những cân nhắc về mặt đạo đức: Tuân thủ các quy định về quyền riêng tư và hướng dẫn đạo đức.
- Thời gian phục vụ: 24/7
GIẢI PHÁP
Chú Thích Văn Bản Với Xử Lý Ngôn Ngữ Tự Nhiên
DIGI-TEXX cung cấp dịch vụ chú thích văn bản kết hợp với con người, kết hợp sức mạnh của máy học, xử lý ngôn ngữ tự nhiên (NLP) và một nhóm chú thích dữ liệu có trình độ cao với trình độ tiếng Anh và tiếng Trung nâng cao. Phương pháp này tối ưu hóa đầu ra cho dự án, đảm bảo chú thích hiệu quả cho tập dữ liệu lớn.
Quy trình chú thích văn bản:
- Tiền xử lý dữ liệu: Phân loại các danh mục có liên quan và loại bỏ dữ liệu không liên quan, nội dung trùng lặp và nội dung gây nhiễu.
- Phân tích từ khóa và cảm xúc: Sử dụng các kỹ thuật NLP để phân tích và xác định các từ khóa và cụm từ có liên quan đến các triệu chứng giống cúm. Sử dụng các mô hình học máy để xác định tình cảm liên quan đến các từ khóa và cụm từ được trích xuất.
- Ghi nhãn dữ liệu: Ghi nhãn một tập hợp con dữ liệu với các danh mục có liên quan: “khả năng lây nhiễm cao” và “khả năng thấp hoặc thông tin không đầy đủ” để cung cấp dữ liệu hiệu quả với độ chính xác cho nhu cầu cụ thể của khách hàng.
- Đảm bảo chất lượng dữ liệu: Các chú thích viên của chúng tôi đã tiến hành đảm bảo chất lượng thường xuyên để theo dõi tính chính xác và tính nhất quán của dự án. Ngoài ra, một vòng phản hồi đã được thiết lập để đánh giá và nâng cao hiệu suất liên tục.
- Xuất và cung cấp dữ liệu: Cung cấp tập dữ liệu có chú thích tương thích với hệ thống của khách hàng và để phân tích và nghiên cứu thêm.
KẾT QUẢ ĐẠT ĐƯỢC
- Đã chú thích chính xác 200.000 bài đăng tiếng Trung từ nền tảng X
- Hoàn thành dự án trong vòng 2 tháng.
- Tỷ lệ chính xác: 100%
- Chúng tôi cung cấp dữ liệu chú thích chất lượng cao để nâng cao độ chính xác và hiệu quả của thuật toán AI của khách hàng.
- Dữ liệu chú thích có thể được sử dụng để phát triển các hệ thống cảnh báo sớm chính xác và kịp thời hơn cho các đại dịch trong tương lai, cho phép thực hiện các biện pháp chủ động.