Skip to content

Nhóm sinh viên khoa Khoa học & Kỹ thuật Thông tin có bài báo đăng tại Hội nghị Quốc tế về Xử lý Ngôn ngữ Tự nhiên PACLIC (Hạng B theo CORE2021)

Bài báo: "ViVQA: Vietnamese Visual Question Answering" do sinh viên Trần Quốc Khánh, Nguyễn Trọng Ân, Lê Trần Hoài Ân đã được đăng tại Hội nghị Quốc tế về Xử lý Ngôn ngữ Tự nhiên PACLIC (Hạng B theo CORE2021). Bài báo có sự hướng dẫn của giảng viên ThS. Nguyễn Văn Kiệt

Mô tả bài báo: Hỏi đáp dựa trên hình ảnh (VisualQA) là một lĩnh vực khá mới mẻ, dần trở nên sôi nổi và đạt được những tiến bộ lớn trong thời gian qua. Đây cũng là một trong những lĩnh vực nghiên cứu tiềm năng với sự kết hợp của xử lý ngôn ngữ tự nhiên và thị giác máy tính. Việc đưa ra một hình ảnh cùng với câu hỏi về nó, một hệ thống hỏi đáp có thể trích xuất được các thông tin cơ bản về ảnh và trả lời các câu hỏi liên quan, công việc tưởng chừng là điều đơn giản đối với con người chúng ta nhưng lại là một thách thức lớn đối với máy tính. Từ đó, chúng tôi nắm bắt được tầm quan trọng của các hệ thống máy hỏi đáp trên ảnh đối với con người. Tuy nhiên, các công trình nghiên cứu hiện nay đã có trên tiếng Anh, tiếng Nhật và một vài ngôn ngữ khác, nhưng trên tiếng Việt hiện nay vẫn chưa có công trình nghiên cứu nào vì hạn chế về dữ liệu cho việc nghiên cứu. Chính vì lý do đó, chúng tôi quyết định thực hiện đề tài này với mục tiêu xây dựng một bộ dữ liệu để góp phần phát triển các hệ thống hỏi đáp trên ảnh tự động cho tiếng Việt. Bộ dữ liệu này được chúng tôi xây dựng trên miền dữ liệu các hình ảnh từ MS COCO, cùng với đó là việc triển khai mô hình VisualQA sử dụng các phương pháp khác nhau như LSTM, CNN và Hierarchical Co-Attention để đánh giá hiệu suất trên bộ dữ liệu cũng như trình bày về các tinh chỉnh trong các mô hình mà chúng tôi triển khai nhằm tìm ra mô hình cho kết quả tốt nhất với bộ dữ liệu này.

Thông tin chi tiết: https://www.facebook.com/UIT.ISE/

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin