Skip to content
  • Tiếng Việt
  • English

Chúc mừng nhóm sinh viên Khoa học Dữ liệu có bài báo khoa học được đăng tại Hội nghị Quốc tế PACLIC 27

Bài báo: “Machine Reading Comprehension for Vietnamese Customer Reviews: Task, Corpus And Baseline Models”

Sinh viên thực hiện: 

Đỗ Phạm Phúc Tính – 20522020 – KHDL2020 – Đồng tác giả

Cao Đình Duy Ngọc – 20521661 – KHDL2020 – Đồng tác giả

Nguyễn Thành Nhân – 20521701 – KHDL2020 – Đồng tác giả

Giảng viên hướng dẫn:

ThS Nguyễn Văn Kiệt

ThS Huỳnh Văn Tín

Tóm tắt bài báo:

Customers spend much time researching product information before making a purchase. This problem can be partially addressed through Machine Reading Comprehension (MRC) on customer reviews. Nonetheless, to implement MRC effectively, benchmark corpora specific to the review domain in Vietnamese are lacking. Therefore, we proposed ViRe4MRC, the first benchmark corpus for evaluating review-based machine reading comprehension on customer reviews in Vietnamese. This corpus comprises 6,603 human-generated question-answer pairs from 2,174 customer reviews on smartphone and restaurant domains. We also evaluate the experimental results of monolingual language models: ViBERT, PhoBERT, and vELECTRA; multilingual language models: mBERT and XLM-RoBERTa (XLM-R). As a result, the XLM-R-Large model, as the best model, achieved 44.25% Exact Match (EM) and 78.13% F1. Our corpus is available for research purposes.

Chúng em xin gửi lời cảm ơn đến thầy Nguyễn Văn Kiệt và thầy Huỳnh Văn Tín đã đồng hành và hướng dẫn nhóm chúng em trong quá trình nghiên cứu và công bố bài báo khoa học quốc tế này. Chúng em cũng xin cảm ơn anh Vũ Quí San, cựu sinh viên lớp KHTN2018 đã định hướng, hỗ trợ chúng em.

Hội nghị Châu Á Thái Bình Dương lần thứ 37 về Ngôn ngữ, Thông tin và Tính toán (The 37th Pacific Asia Conference on Language, Information and Computation - PACLIC 37)  là hội nghị quốc tế uy tín trong lĩnh vực phân tích lý thuyết và xử lý ngôn ngữ tự nhiên. Kể từ năm 1982, chuỗi hội nghị PACLIC cung cấp một diễn đàn cho các nhà nghiên cứu trong các lĩnh vực nghiên cứu ngôn ngữ khác nhau ở khu vực Châu Á - Thái Bình Dương để chia sẻ những phát hiện và lợi ích trong nghiên cứu chính thức và thực nghiệm về ngôn ngữ. Năm 2023, hội nghị chính của PACLIC 37 sẽ diễn ra từ ngày 2-4  tháng 12 tại trường Đại học Bách khoa Hồng Kông (The Hong Kong Polytechnic University). Các kỷ yếu của PACLIC trước đây đã được lập chỉ mục trong Scopus (kể từ PACLIC 19 vào năm 2005) và được liệt kê trong ACL Anthology. 

Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid07vowaL94RN41ECjJTKSkWPKgC3Lp27Xx9ivaVb56BAYtNnuurHCZCkk5eiuN6pRMl

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin