Skip to content

NHIỆT LIỆT CHÀO MỪNG ĐẠI HỘI ĐẠI BIỂU ĐẢNG BỘ TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN LẦN THỨ IV, NHIỆM KỲ 2025 – 2030

  • Tiếng Việt
  • English

Chúc mừng học viên cao học Nguyễn Xuân Vĩnh Phú có bài báo khoa học được đăng tại tạp chí Intelligent & Fuzzy Systems

Bài báo: “Improving sentence representation for Vietnamese natural language understanding using Optimal Transport”

Sinh viên thực hiện: Nguyễn Xuân Vĩnh Phú - CH1901026 – Tác giả chính

Giảng viên hướng dẫn:

TS. Nguyễn Lưu Thuỳ Ngân

NCS.ThS. Nguyễn Văn Kiệt

Tóm tắt bài báo:

Hiểu ngôn ngữ tự nhiên (NLU - Natural Language Understanding) là một thách thức của lĩnh vực xử lý ngôn ngữ tự nhiên (NLP - Natural Language Processing), tập trung nghiên cứu những kỹ thuật giúp máy tính hiểu ngôn ngữ của con người và thực hiện những tác vụ cần đến việc hiểu nội dung ngôn ngữ. Những năm gần đây, với sự ra đời và phát triển của mạng Transformer và mô hình ngôn ngữ được huấn luyện trước (pre-trained language model), nhiều nghiên cứu khoa học đã được công bố và đạt được những bước cải tiến lớn về hiệu suất trên các tác vụ về NLU.  Các công trình nghiên cứu chủ yếu tập trung xây dựng mô hình huấn luyện trước trên các ngôn ngữ giàu tài nguyên với lượng dữ liệu khổng lồ. Tuy nhiên, đối với các ngôn ngữ ít tài nguyên, các mô hình huấn luyện trước không được tối ưu tốt do khó khăn trong việc thu thập dữ liệu. Sự xuất hiện của mô hình đa ngôn ngữ đã giải quyết được vấn đề trên. Mô hình đa ngôn ngữ mở rộng khả năng biểu diễn của mô hình cho nhiều ngôn ngữ khác nhau, điều này dẫn đến hiệu suất trên các tác vụ về NLU được cải thiện đáng kể trên các ngôn ngữ ít tài nguyên.

Bằng việc xem xét kết quả nghiên cứu của các mô hình đa ngôn ngữ hiện có, học viên nhận thấy có một nhược điểm: hiệu suất trên các tác vụ sẽ giảm khi chúng ta thêm nhiều ngôn ngữ hơn trong quá trình huấn luyện trước. Mặc dù với số lượng tham số lớn, các mô hình đa ngôn ngữ thường chưa được tối ưu tốt đặc biệt trên là các ngôn ngữ ít tài nguyên do số lượng ngôn ngữ cần phải biểu diễn là quá lớn. Trong luận văn này, học viên hướng đến mục tiêu cải thiện hiệu suất của mô hình đa ngôn ngữ trên tiếng Việt cho các tác vụ NLU, cụ thể là hai bài toán: đọc hiểu văn bản và suy luận ngôn ngữ tự nhiên. Đây là hai bài toán được áp dụng nhiều vào thực tế, đặc biệt là các hệ thống hỏi đáp tự động hoặc rút trích thông tin. Tuy nhiên việc xây dựng mô hình để giải quyết hai bài toán này vẫn còn tồn tại một số thách thức. Tiếng Việt được xem là một trong những ngôn ngữ ít tài nguyên do thiếu các bộ dữ liệu được gán nhãn. Bên cạnh đó, xử lý tiếng Việt đối mặt với nhiều khó khăn, đặc biệt sự nhập nhằng ở cấp độ từ vựng và cú pháp, yêu cầu mô hình phải có khả năng suy luận và tổng hợp thông tin. Chính vì thế, học viên nhận thấy sự cần thiết để đề xuất các mô hình giúp cải thiện kết quả trên hai bài toán này.

"Học viên xin gửi lời cảm ơn sâu sắc nhất đến Cô Nguyễn Lưu Thuỳ Ngân và Thầy Nguyễn Văn Kiệt đã đồng hành và chia sẻ những kiến thức cũng như những kinh nghiệm quý báu trong quá trình thực hiện bài báo. Học viên cũng xin cảm ơn bạn Nguyễn Hoàng Thiên Thư - đồng tác giả đã có nhiều đóng góp quý báu trong việc hoàn thành đề tài này"

Tạp chí Intelligent & Fuzzy Systems là một tạp chí tập trung vào các ứng dụng trong Kỹ thuật và Công nghệ tiên tiến nhằm thúc đẩy việc áp dụng và phổ biến các kết quả nghiên cứu liên quan đến các ứng dụn trong nhiều lĩnh vực khác nhau như logic mờ, hệ thống thông minh và ứng dụng dựa trên web trong nhiều lĩnh vực khác nhau. Tạp chí tập trung vào các lĩnh vực khoa học máy tính, kỹ thuật điện, kỹ thuật sản xuất, kỹ thuật công nghiệp, kỹ thuật hóa học, cơ khí, kỹ thuật dân dụng, quản lý kỹ thuật, kỹ thuật sinh học và kỹ thuật y sinh. Phạm vi của tạp chí cũng bao gồm việc phát triển các công nghệ trong toán học, nghiên cứu hoạt động, quản lý công nghệ, các vấn đề kỹ thuật, xã hội và môi trường. Tạp chí Intelligent & Fuzzy Systems được liệt kê vào danh sách tạp chí uy tín theo SCOPUS and ISI Web of Science.

Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid0kpEmtmbWNkFxnWJyFDXUMrYXFfsa79cvhgbXSpkWGAyUUgGWd9qzLWnSmSGmAtYfl

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin