Bài báo: “ViOCRVQA: novel benchmark dataset and VisioReader for visual question answering by understanding Vietnamese text in images”
Link bài báo: https://doi.org/10.1007/s00530-025-01696-7
Sinh viên thực hiện:
• Phạm Quang Huy - KHDL2021 - Tác giả chính
• Nguyễn Văn Quân - KHDL2021 - đồng tác giả
• Nguyễn Kiến Bảo Thắng - KHDL2021 - đồng tác giả
• Trần Quang Dân - KHDL2021 - đồng tác giả
Giảng viên hướng dẫn:
• PGS.TS Nguyễn Lưu Thùy Ngân
• TS. Nguyễn Văn Kiệt
• CN Nguyễn Hiếu Nghĩa
Tóm tắt:
Optical Character Recognition-Visual Question Answering (OCR-VQA) is the task of answering text information contained in images that have been significantly developed in the English language in recent years. However, there are limited studies of this task in low-resource languages such as Vietnamese. To this end, we introduce a novel dataset, ViOCRVQA (Vietnamese Optical Character Recognition-Visual Question Answering dataset), consisting of 28,000+ images and 120,000+ question-answer pairs. In this dataset, all the images contain text and questions about the information relevant to the text in the images. We deploy ideas from state-of-the-art methods proposed for English to conduct experiments on our dataset, revealing the challenges and difficulties inherent in a Vietnamese dataset. Furthermore, we introduce a novel approach, called VisionReader, which achieved 41.16% in EM and 69.90% in the F1-score on test dataset. The results showed that the OCR system plays an important role in VQA models on the ViOCRVQA dataset. In addition, the objects in the image also play a role in improving model performance. We open access to our dataset at https://github.com/qhnhynmm/ViOCRVQA.git for further research in OCR-VQA task in Vietnamese. The code for the proposed method, along with the models utilized in the experimental evaluation, is available at the following https://github.com/minhquan6203/VisionReader.git.
"Chúng em xin gửi lời tri ân sâu sắc đến thầy cô – người đã tận tình hướng dẫn, đồng hành và hỗ trợ nhóm trong suốt hành trình nghiên cứu. Nhờ sự tận tâm, nhiệt huyết và những góp ý quý báu của thầy, chúng em đã đạt được những bước tiến đáng kể, mở ra cơ hội công bố bài báo khoa học trên tạp chí quốc tế. Thầy luôn là nguồn cảm hứng và chỗ dựa vững chắc, giúp chúng em vượt qua mọi thách thức để chạm đến thành công như kỳ vọng."
Multimedia Systems là một tạp chí quốc tế xuất bản các công trình nghiên cứu về hệ thống đa phương tiện, bao gồm các lĩnh vực như xử lý văn bản, hình ảnh, âm thanh, video. Đây là tạp chí khoa học quốc tế uy tín được xếp hạng Q1 (theo Scimago) trong danh mục ISI (theo Web of science) với chỉ số ảnh hưởng của tạp chí (Impact Factor) là 3.5 (2023).
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid02dpBwPR8TeA9KhT9ShFEoKMfRDQ1F1XttJB8k7G63GUx4RWNRQkLB972YbF8DsDtPl