Skip to content
  • Tiếng Việt
  • English

Nhóm sinh viên UIT có bài báo chấp nhận đăng tại Hội nghị khoa học quốc tế lần thứ 8 về Khoa học Thông tin và máy tính được bảo trợ bởi Quỹ NAFOSTED 

Bài báo “Guided Anchoring Cascade R-CNN: An intensive improvement of R-CNN in Vietnamese Document Detection” của nhóm sinh viên UIT đã được chấp nhận đăng tại Hội nghị khoa học quốc tế lần thứ 8 về Khoa học Thông tin và máy tính được bảo trợ bởi Quỹ NAFOSTED (The 2021 8th NAFOSTED Conference on Information and Computer Science (NICS))

Sinh viên thực hiện

- Lê Trương Ngọc Hải

- Nguyễn Nhật Trường

- Lê Thị Phương Vy

- Nguyễn Trọng Thuận

Giảng viên hướng dẫn: TS.Nguyễn Tấn Trần Minh Khang

Tóm tắt bài báo:

Cùng với sự phát triển của thế giới, tài liệu số đang dần được trọng dụng hơn tài liệu giấy. Vì vậy, nhu cầu trích xuất thông tin từ tài liệu kỹ thuật số đang ngày tăng và trở thành một trong vấn đề được quan tâm trong lĩnh vực nghiên cứu thị giác máy tính nói chung và đọc hiểu tài liệu dạng ảnh nói riêng. Bài toán, pháp hiện đối tượng trên tài liệu dạng ảnh (hình, bảng, công thức) là một trong những bài toán tiền đề cho cho việc phân tích, trích xuất thông tin từ tài liệu. Tuy nhiên, các nghiên cứu trước đây vẫn chỉ tập trung vào ngôn ngữ chính là tiếng Anh. Trong nghiên cứu này, chúng tôi tập trung xây dựng mô hình phát hiện đối tượng dựa trên bộ dữ liệu tài liệu dạng ảnh tiếng Việt UIT-DODV, các đối tượng được quan tâm trong bộ dữ liệu này là Table, Figure, Caption và Formula. Chúng tôi đã thực nghiệm trên các mô hình common object detection state-of-the-art như Double-Head RCNN, Libra RCNN, Guided Anchoring và đạt được kết quả cao nhất với Guided Anchoring là 73.6% trên độ đo mAP. Chúng tôi cho rằng các anchor box chất lượng là nền tảng quyết định thành công của một mô hình phát hiện đối tượng, do đó phương pháp của chúng tôi có sự xuất hiện của Guided Anchoring. Hơn nữa, để tăng độ chất lượng của các bounding box thì kiến trúc Cascade R-CNN có thể đáp ứng điều đó qua việc tăng ngưỡng IoU trong từng giai đoạn, từ đó lọc được các bounding box gây nhiễu. Dựa trên kết quả đánh giá ban đầu từ các mô hình common object detection state-of-the-art, chúng tôi đã đề xuất mô hình Guided Anchoring Cascade R-CNN để thực hiện phát hiện đối tượng tài liệu dạng ảnh tiếng Việt. Mô hình đề xuất của chúng tôi đã đạt được mAP lên đến 76.6%, cao hơn mô hình baseline trên bộ dữ liệu UIT-DODV 2.1%.

Chúng tôi xin chân thành cảm ơn Phòng thí nghiệm Truyền thông Đa phương tiện (MMLab), Khoa Khoa học máy tính, Khoa Khoa học & Kỹ thuật thông tin và Nhóm nghiên cứu UIT-Together đã hỗ trợ, tạo điều kiện cho chúng tôi trong quá trình nghiên cứu.

Hội nghị NAFOSTED Conference on Information and Computer Science (NICS) là Hội nghị Quốc tế về Điện tử, Thông tin, Khoa học máy tính và các lĩnh vực liên quan được tài trợ bởi IEEE, IEEE Việt Nam và được tổ chức hằng năm bởi Quỹ Phát triển Khoa học và công nghệ Quốc gia (NAFOSTED) của Việt Nam. Hội nghị được tổ chức nhằm mục đích xây dựng một diễn đàn quốc tế bền vững, sáng tạo và thuận lợi, dành cho các nhà nghiên cứu trình bày và thảo luận về những tiến bộ gần đây và định hướng tương lai trong việc giải quyết các thách thức trong lĩnh vực Điện tử, Thông tin, Khoa học máy tính và các lĩnh vực liên quan.

Hội nghị NICS’21 lần thứ 8 được tổ chức tại Đại học Kỹ thuật Lê Quý Đôn, thủ đô Hà Nội, Việt Nam trong khoảng thời gian từ ngày 21 tới 22 tháng 12 năm 2021 theo mô hình kết hợp tại chỗ và trực tuyến.

Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin