Hotline: 0274 383 347
Thứ tư, 24-12-25 09:17:12

Khoa học công nghệ

Hotline: 0274 383 347

Nhà khoa học Việt dùng AI dịch chữ Nôm sang chữ Quốc ngữ

0

Sử dụng kho dữ liệu hàng trăm triệu từ, nhóm nhà khoa học tại TP HCM xây dựng thành công hệ thống ứng dụng trí tuệ nhân tạo (AI) chuyển chữ Nôm sang chữ Quốc ngữ.

Nhóm nghiên cứu gồm 10 giảng viên đến từ Khoa Công nghệ Thông tin, Đại học Khoa học Tự nhiên và Bộ môn Hán - Nôm, khoa Văn học, Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TP HCM). Nhóm xây dựng hệ thống chuyển ngữ tự động (automatic transliteration) từ năm 2020 và hiện đã hoàn thành. Người dùng có thể tra cứu tại: tools.clc.hcmus.edu.vn.

Ý tưởng xây dựng hệ thống phiên dịch tự động được PGS.TS Đinh Điền, Giám đốc Trung tâm ngôn ngữ học tính toán, Đại học Khoa học Tự nhiên ấp ủ từ hơn 20 năm trước. Tuy nhiên, thời điểm đó chưa có nhiều nguồn dữ liệu Hán - Nôm cũng như các mô hình máy học tiên tiến. Nhiều năm sau, với sự xuất hiện các mô hình học sâu (deep learning) của trí tuệ nhân tạo, họ mới bắt đầu phát triển mô hình phiên dịch tự động này.

PGS.TS Đinh Điền, Trưởng nhóm nghiên cứu dùng mô hình máy học dịch chữ Nôm sang chữ Quốc ngữ.

Nhóm nghiên cứu thu thập nguồn tài liệu Hán - Nôm tại các viện nghiên cứu, thư viện, website, nhà khoa học trong và ngoài nước với kho dữ liệu hàng trăm triệu từ. Dữ liệu được sử dụng mô hình lai (hybrid) bằng cách kết hợp giữa mô hình máy học dịch thống kê (SMT: Statistical Machine Translation) và mô hình máy dịch theo mạng nơron (NMT: Neural Machine Translation).

Theo PGS Điền, mô hình NMT khả năng dịch ngôn ngữ tự nhiên tốt hơn, nhưng với SMT thì khả năng chuyển tự chữ Hán - Nôm sang chữ Quốc ngữ lại có ưu thế hơn do không có sự thay đổi trật tự từ như trong chuyển ngữ thường gặp. Vì vậy, tùy từng trường hợp, nhóm sẽ kết hợp sử dụng mô hình để cho kết quả tối ưu. Với việc xây dựng hệ thống chuyển ngữ hoạt động trên website, khả năng dịch của hệ thống cho độ chính xác tùy theo lĩnh vực.

Cụ thể, với các văn bản thuộc lĩnh vực lịch sử, văn học, xã hội, hệ thống cho kết quả chính xác trên 90%. Các văn bản về y học dân tộc và các tài liệu mang tính chuyên ngành, mô hình cho độ chính xác 70%. Riêng truyện Kiều mô hình có thể dịch chính xác tới 99%.

Để thuận lợi trong sử dụng, nhóm nghiên cứu đang phát triển mô hình có thể dịch chữ Nôm trên ảnh chụp. Khi người dùng đưa ảnh chụp có chứa chữ Nôm, ứng dụng sẽ xử lý chuyển thành văn bản tiếng Việt.

PGS Điền cho biết, với các văn bản cũ chữ bị mờ, thiếu nét, mô hình có thể nhận dạng sai. Tuy nhiên, nhóm đang nghiên cứu giải pháp có khả năng dự đoán chữ viết dựa trên nét chữ và ngữ cảnh trên cả văn bản để có thể đoán chính xác chữ không rõ ràng. Chức năng dịch ảnh đang trong giai đoạn thử nghiệm và chưa ứng dụng công khai. Kết quả thử nghiệm bước đầu một số ảnh chụp văn bản chất lượng thấp, nhưng mô hình có thể nhận dạng chính xác 95%.

Theo nhóm nghiên cứu, đây là dự án phi lợi nhuận nhằm hướng đến công cụ dịch chuẩn xác từ chữ Hán - Nôm sang chữ Quốc ngữ. Thông qua dự án, cộng đồng có thể đóng góp nguồn tư liệu chữ Hán - Nôm để cập nhật thêm kho ngữ liệu huấn luyện mô hình phong phú hơn, giúp hoạt động chính xác hơn. Thông qua website, các nhà nghiên cứu có thể hiệu chỉnh những lỗi nhận dạng chữ Hán - Nôm sai hay chuyển tự sai, giúp máy ngày càng hoàn thiện hơn.

TS Hồ Minh Quang, Trưởng khoa Đông Phương Học, Đại học Khoa học Xã hội và Nhân văn (Đại học Quốc gia TP HCM) đánh giá nghiên cứu có ý nghĩa lớn trong việc gìn giữ di sản ngôn ngữ Hán - Nôm. Trước đây việc đọc, hiểu chữ Nôm chủ yếu là trong giới nghiên cứu. Sản phẩm của nhóm có thể giúp người dùng nhận diện, tra cứu thông tin sang chữ Quốc ngữ. Ông cũng cho rằng, rất cần sự đóng góp dữ liệu của cộng đồng để mô hình thông minh, dịch chuẩn xác hơn.

Chữ Nôm hiện vẫn còn tồn tại nhiều trong dân gian, như trong các sắc phong, gia phả, khế ước, di chúc, bài thuốc... Các văn bản này được ghi lại cách đây hàng trăm năm, trên các chất liệu chất lượng thấp, dễ hư hỏng theo thời gian nếu không được bảo quản trong điều kiện đặc biệt. Trong các văn bản chữ Nôm, có thể có nhiều thông tin quý, nhưng người dân không tự đọc hiểu được mà phải những người biết Hán - Nôm để phiên dịch qua chữ Quốc ngữ. Nhóm nghiên cứu cũng cho rằng, việc có công cụ phiên dịch chữ Nôm sang chữ Quốc ngữ sẽ giúp người không biết Hán - Nôm vẫn có thể giải mã thông tin của nhiều tư liệu quý do tổ tiên họ để lại, trong đó có những bài thuốc dân gian, trong ngành y học cổ truyền đang lưu truyền trong nhân dân.

Theo VNE

Từ khóa: dịch chữ Nôm

Góp sức đổi mới sáng tạo, phát triển bền vững

Trong những năm gần đây, khoa học - công nghệ, đổi mới sáng tạo và chuyển đổi số trở thành kim chỉ nam hành động của Bình Dương.

Quy định về chữ ký điện tử và dịch vụ tin cậy

Ngày 21-2-2025, Chính phủ đã ban hành Nghị định số 23/2025/NĐ-CP quy định về chữ ký điện tử và dịch vụ tin cậy.

Lợi ích của chữ ký số trong giao dịch điện tử, bảo mật thông tin

Thời gian gần đây, chữ ký số ngày càng thể hiện vai trò quan trọng, mang lại nhiều lợi ích thiết thực cho các tổ chức, doanh nghiệp và cá nhân trong việc xác định tính pháp lý khi tham gia các hoạt động, giao dịch trên môi trường điện tử.

Xét nghiệm máu siêu nhạy của Johns Hopkins phát hiện ADN ung thư sớm 3 năm

Nghiên cứu mới từ Đại học Johns Hopkins cho thấy dấu vết ung thư có thể phát hiện trong máu trước khi chẩn đoán chính thức tới 3 năm, mở ra cơ hội điều trị sớm.

Đẩy mạnh thu hút đầu tư công nghiệp công nghệ cao

Thời gian qua, Bình Dương đã không ngừng mở rộng hợp tác quốc tế, thúc đẩy hợp tác đầu tư, phát triển khoa học - công nghệ và đổi mới sáng tạo.

Đã tìm ra lý do COVID-19 gây tổn thương kéo dài trong cơ thể

Phát hiện mới cho thấy một loại protein của virus SARS-CoV-2 - tác nhân gây bệnh COVID-19, có thể khiến hệ miễn dịch nhầm lẫn, dẫn đến việc tấn công cả những tế bào khỏe mạnh của cơ thể.

Đề án 06: Nhiều lợi ích cho người dân, doanh nghiệp

Đề án phát triển ứng dụng dữ liệu về dân cư, định danh và xác thực điện tử phục vụ chuyển đổi số Quốc gia giai đoạn 2022-2025, tầm nhìn đến năm 2030 (gọi tắt là Đề án 06) đề ra mục tiêu tất cả vì lợi ích quốc gia, dân tộc và quyền lợi của người dân, lấy người dân và doanh nghiệp là trung tâm.

Tổng kết và trao giải Hội thi Sáng tạo kỹ thuật tỉnh lần thứ XI và cuộc thi sáng tạo dành cho thanh thiếu niên, nhi đồng lần thứ XXI

Sáng 30-5, tại trường Đại học Thủ Dầu Một đã diễn ra lễ tổng kết và trao giải Hội thi Sáng tạo kỹ thuật tỉnh lần thứ XI, năm 2024-2025 và cuộc thi sáng tạo dành cho thanh thiếu niên, nhi đồng tỉnh Bình Dương lần thứ XXI.

Bảo vệ tên miền “.vn” trước nguy cơ bị chiếm đoạt trái phép

Để ngăn chặn các nguy cơ chiếm quyền, chuyển hướng hay giả mạo, Trung tâm Internet Việt Nam (Bộ Khoa học và Công nghệ) khuyến nghị các cá nhân, tổ chức kích hoạt Registry Lock.

Các sáng kiến, đề tài nghiên cứu khoa học cần mang lại hiệu quả cho sự phát triển của tỉnh

Chiều 20-5, tại Trung tâm Hành chính tỉnh, ông Bùi Minh Thạnh, Phó Chủ tịch UBND tỉnh chủ trì họp Hội đồng đánh giá hiệu quả áp dụng, phạm vi ảnh hưởng của sáng kiến, đề tài nghiên cứu khoa học tỉnh