Chi tiết tin - Sở Khoa học và Công nghệ

 

Khoa học, Công nghệ và Đổi mới sáng tạo – Khơi dậy khát vọng kiến tạo tương lai
Tin tức - Sự kiện: Tin trong nước

Ngày đăng: 07-12-2023

Phát triển mô hình dịch máy tự động chất lượng cao cho các cặp ngôn ngữ hiếm

Viện Công nghệ thông tin thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã thành công trong việc áp dụng các kỹ thuật xử lý ngôn ngữ tự nhiên tiên tiến để phát triển mô hình dịch máy tự động chất lượng cao cho các cặp ngôn ngữ hiếm, đặc biệt là trong khu vực Đông Nam Á. Viện đã thành công xây dựng hệ thống dịch văn bản đa ngôn giữa tiếng Việt và các ngôn ngữ như tiếng Lào, tiếng Khmer, tiếng Thái Lan, tiếng Malaixia và tiếng Inđônêxia.

Dịch máy, hay còn được gọi là dịch tự động, là quá trình chuyển đổi văn bản từ một ngôn ngữ nguồn sang một hoặc nhiều ngôn ngữ đích mà không có sự can thiệp của con người. Hiện nay, có nhiều sản phẩm dịch tự động phổ biến như Google Translate của Google, Bing Translator của Microsoft, mang lại chất lượng dịch tốt cho câu đơn. Tuy nhiên, để xây dựng các hệ thống dịch máy chất lượng cao, đòi hỏi bộ dữ liệu song ngữ quy mô lớn, điều này là khó khăn đối với nhiều ngôn ngữ trên thế giới, đặc biệt là các ngôn ngữ hiếm và nghèo tài nguyên.

Để vượt qua thách thức này, nhóm nghiên cứu tại Viện Công nghệ thông tin đã phát triển một hệ thống dịch thuật tập trung vào tiếng Việt, có khả năng dịch hai chiều giữa tiếng Việt và các ngôn ngữ nghèo tài nguyên ở khu vực Đông Nam Á. Đến nay, hệ thống đã thành công trong việc dịch hai chiều giữa các cặp ngôn ngữ như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaixia và Việt - Inđônêxia, với chất lượng tương đương với các sản phẩm thương mại nổi tiếng trên thế giới.

Hệ thống được phát triển dựa trên những tiến bộ mới nhất trong lĩnh vực xử lý ngôn ngữ tự nhiên và dịch máy. Các ngôn ngữ như tiếng Lào, tiếng Thái và tiếng Khmer đặt ra nhiều thách thức trong việc xây dựng mô hình dịch máy do thiếu dữ liệu song ngữ và đặc điểm ngôn ngữ phức tạp. Tuy nhiên, hệ thống đã có khả năng thích ứng với những đặc điểm đặc biệt này và đạt được kết quả tốt.

Hệ thống dịch máy của Viện Công nghệ thông tin sử dụng kiến trúc Transformer hiện đại và được huấn luyện trên hệ thống máy chủ Nvidia DGX A100 với cấu hình tiên tiến nhất ở Việt Nam. Đặc biệt, hệ thống có khả năng mở rộng sang các ngôn ngữ mới, bao gồm cả ngôn ngữ dân tộc thiểu số tại Việt Nam và ngôn ngữ phổ biến như tiếng Trung, tiếng Pháp, tiếng Nga. Hệ thống cũng có khả năng tinh chỉnh để thích ứng với các lĩnh vực chuyên sâu như y tế, luật theo yêu cầu của đối tác.

Hệ thống dịch máy của Viện Công nghệ thông tin có nhiều tính năng, bao gồm sử dụng phần mềm on-premise, công nghệ hiện đại 4.0 như học máy và xử lý ngôn ngữ tự nhiên, khả năng cập nhật và tái huấn luyện mô hình để nâng cao chất lượng dịch thuật, đảm bảo an toàn thông tin, triển khai cả trong mạng nội bộ và trên mạng Internet, cung cấp giao diện web và API để kết nối với các hệ thống khác, và khả năng dịch thuật tự động với nhiều định dạng khác nhau.

Đại diện nhóm nghiên cứu cho biết, hệ thống dịch máy này là một lựa chọn tốt cho các tổ chức và doanh nghiệp muốn sở hữu một hệ thống dịch thuật riêng, đảm bảo an ninh và không phụ thuộc vào bên thứ ba. Đồng thời, nó cung cấp khả năng mở rộng sang các ngôn ngữ mới và thích ứng với các lĩnh vực chuyên sâu theo yêu cầu cụ thể.

https://vista.gov.vn/

LỊCH CÔNG TÁC TUẦN

CHUYÊN MỤC KH&CN SỐ 5-2016

Thống kê truy cập
Số người online: 15
Hôm nay: 29
Tổng lượt truy cập: 3.277.109
© CỔNG THÔNG TIN ĐIỆN TỬ KHOA HỌC VÀ CÔNG NGHỆ QUẢNG TRỊ
Chịu trách nhiệm: Trần Ngọc Lân, Giám đốc Sở Khoa học và Công nghệ. Địa chỉ: 204 Hùng Vương, Đông Hà; ĐT: 0233.3550 382.