Nhóm sinh viên Khoa học Dữ liệu có bài báo chấp nhận đăng tại Hội nghị Paclic 36

T5, 20/10/2022 - 17:05

Bài báo “UIT - ViCoV19QA: A Dataset for Covid-19 Community-based Question Answering on Vietnamese Language” của sinh viên Thái Minh Triết, Chu Hà Thảo Ngân và Võ Tuấn Anh thực hiện được chấp nhận đăng tại Hội nghị Paclic 36. Giảng viên hướng dẫn thực hiện ThS.Lưu Thanh Sơn.

Tóm tắt bài báo:

Trong hai năm 2020 và 2021, thế giới trải qua sự bùng phát và lan rộng của đại dịch COVID-19. Sự xuất hiện các biến thể nguy hiểm như chủng Delta và Omicron đã khiến ca nhiễm và tử vong tăng nhanh, tác động xấu đến sức khỏe, đời sống vật chất, tinh thần của người dân tại nhiều quốc gia trên thế giới, trong đó có Việt Nam. Bên cạnh những ảnh hưởng tiêu cực của đại dịch, vấn nạn tin giả còn là một vấn đề nhức nhói khiến công tác chống dịch tại các địa phương gặp nhiều khó khăn. Bối cảnh đó đã tạo động lực thúc đẩy nghiên cứu xây dựng một bộ dữ liệu phục vụ cho hệ thống hỏi đáp về COVID-19 trên tiếng Việt, qua đó giúp giải đáp thắc mắc và nâng cao nhận thức của người dân về đại dịch COVID-19, cũng như làm cơ sở cho các nghiên cứu tiếp theo trong tương lai.

Bộ dữ liệu UIT-ViCoV19QA được xây dựng dựa trên dữ liệu từ các trang thông tin, hỏi đáp của các tổ chức y tế uy tín trong và ngoài nước như CDC Hoa Kỳ, WHO, Bộ Y tế,… và trải qua một quá trình trích lọc, kiểm tra, xử lý để đảm bảo được chất lượng dữ liệu. UIT-ViCoV19QA chứa thông tin gồm 4,500 cặp câu hỏi đáp tiếng Việt về các nội dung xoay quanh chủ đề COVID-19 như: nguồn gốc, tên gọi, triệu chứng, phòng bệnh, tiêm chủng,…. Bên cạnh đó, bộ dữ liệu được mở rộng và tăng cường thông qua việc tạo thêm những câu trả lời mới có ý nghĩa tương tự (paraphrase) cho mỗi câu hỏi, nhằm nghiên cứu sự cải thiện hiệu suất thực nghiệm trên tác vụ hỏi đáp.

Nghiên cứu cũng thiết lập các mô hình Deep Learning với kiến trúc Encoder-Decoder áp dụng cơ chế Attention gồm Recurrent Neural Network (RNN), Convolutional Neural Network (CNN) và Trasnformer làm mô hình cơ sở (baseline) để đánh giá chất lượng bộ dữ liệu trên tác vụ hỏi đáp tự động và khởi tạo kết quả ban đầu cho các nghiên cứu tiếp theo thông qua độ đo BLEU, METEOR và ROUGE-L. Kết quả nghiên cứu cho thấy khả năng tạo sinh ra câu trả lời mạch lạc và hiệu quả của quá trình paraphrase dữ liệu đến hiệu suất của các mô hình thực nghiệm, đặc biệt là Transformer – một kiến trúc nổi trội trong lĩnh vực xử lý ngôn ngữ tự nhiên những năm gần đây.

Được biết sinh viên Thái Minh Triết là cựu học sinh trường THPT Nguyễn Việt Hồng (THPT Nguyễn Việt Hồng - Cần Thơ); sinh viên Chu Hà Thảo Ngân là cựu học sinh trường THPT Trần Hưng Đạo (THPT Trần Hưng Đạo); sinh viên Võ Tuấn Anh cựu học sinh trường THPT Lê Hồng Phong (THPT Lê Hồng Phong-Biên Hòa)

Hội nghị Châu Á Thái Bình Dương lần thứ 36 về Ngôn ngữ, Thông tin và Tính toán (The 36th Pacific Asia Conference on Language, Information and Computation - PACLIC 36) là hội nghị quốc tế uy tín được xếp hạng B theo CORE2021 trong lĩnh vực phân tích lý thuyết và xử lý ngôn ngữ tự nhiên. Kể từ năm 1982, chuỗi hội nghị PACLIC cung cấp một diễn đàn cho các nhà nghiên cứu trong các lĩnh vực nghiên cứu ngôn ngữ khác nhau ở khu vực Châu Á - Thái Bình Dương để chia sẻ những phát hiện và lợi ích trong nghiên cứu chính thức và thực nghiệm về ngôn ngữ. Năm 2022, PACLIC 36 sẽ được Đại học De La Salle, Manila phối hợp cùng Đại học quốc gia Manila, Philipines tổ chức từ ngày 20 - 22 tháng 10 năm 2022 theo hình thức trực tuyến. Các kỷ yếu của PACLIC trước đây đã được lập chỉ mục trong Scopus (kể từ PACLIC 19 vào năm 2005) và được liệt kê trong ACL Anthology. Theo Google Scholar, PACLIC hiện có h5-index là 13 và h5-median là 19.