Skip to content
  • Tiếng Việt
  • English

Đề tài “Nghiên cứu về bài toán Phát hiện đối tượng trên tài liệu dạng ảnh” của sinh viên ngành Khoa học dữ liệu đăng tại hội nghị quốc tế International Conference on Multimedia Modelling (MMM)

“Nghiên cứu về bài toán Phát hiện đối tượng trên tài liệu dạng ảnh” là đề tài do hai sinh viên năm 4 ngành Khoa học dữ liệu, trường ĐH Công nghệ Thông tin - ĐHQG TP.HCM là Nguyễn Trọng Thuận (tác giả chính) và Nguyễn Quang Thuận (đồng tác giả) thực hiện. Đây cũng là đề tài được chấp nhận đăng tại hội nghị quốc tế International Conference on Multimedia Modelling (MMM), Hội nghị được xếp hạng B (theo CORE2021)

Chia sẻ về ý tưởng của nghiên cứu, Trọng Thuận cho biết: “Dự án phát hiện đối tượng trên tài liệu dạng ảnh là đồ án cuối kỳ của môn Học máy thống kê của chúng mình. Mình nhận thấy rằng trong thập kỷ gần đây, chuyển đổi số là một trong những mối quan tâm hàng đầu. Chuyển đổi số đề cập đến việc chuyển đổi tài liệu giấy và lưu trữ dưới dạng tài liệu kỹ thuật số (PDF). Kể từ đó, tài liệu kỹ thuật số ngày càng được phổ biến rộng rãi trong nhiều lĩnh vực liên quan đến công nghiệp, kinh tế, xã hội. Tuy nhiên các công trình được công bố trên tài liệu dạng ảnh với ngôn ngữ Tiếng Việt còn hạn chế và tồn tại nhiều vấn đề chưa được giải quyết. Vì vậy, nghiên cứu đã đề xuất CDeRSNet: một phương pháp tiếp cận dựa trên học sâu có thể huấn luyện từ đầu đến cuối mới để giải quyết bài toán phát hiện đối tượng trên trang tài liệu”.

Giải thích rõ hơn về công việc phát hiện đối tượng trong tài liệu dạng ảnh, Trọng Thuận thông tin: “Công việc này được thực hiện bằng cách xác định vị trí của các đối tượng của trang tài liệu (bảng, hình, chú thích, công thức) và đây được xem như là bước quan trọng trong việc trích thông tin từ hình ảnh tài liệu. Trong bài báo, mình đã giới thiệu kiến trúc mạng học sâu cho bài toán Phát hiện đối tượng trong tài liệu dạng ảnh. Phương pháp đề xuất chỉ ra vị trí của hình, bảng, chú thích, công thức (nếu có) trong ảnh cho kết quả cạnh tranh với các phương pháp tiên tiến khác”.

Trong quá trình nghiên cứu, trở ngại lớn nhất mà nhóm gặp phải là việc tìm kiếm tài liệu và trao đổi thông tin với nhau. “Do ảnh hưởng của dịch bệnh, chúng mình không thể gặp nhau cũng như không nhận được sự hỗ trợ trực tiếp từ phía các thầy/cô. Chính điều này đã khiến công cuộc nghiên cứu trở nên khó khăn hơn” - Trọng Thuận chia sẻ.

Tuy vậy, Trọng Thuận và Quang Thuận đã không ngừng hỗ trợ lẫn nhau, cùng với sự hướng dẫn, hỗ trợ kịp thời từ ThS. Võ Duy Nguyên và TS. Nguyễn Tấn Trần Minh Khang, các thầy, cô khoa Khoa học và Kỹ thuật thông tin Trường ĐH Công nghệ Thông tin ĐHQG-HCM, phòng thí nghiệm Truyền thông đa phương tiện (MMLab) và các bạn trong nhóm nghiên cứu UIT-Together mà nghiên cứu đã được hoàn thiện một cách tốt nhất.

Được biết, trong tương lai, Trọng Thuận sẽ phát triển thuật toán trên nhiều miền dữ liệu như bài giảng, sách giáo khoa và biên lai. Bên cạnh đó sẽ hướng tới giải quyết các vấn đề khác nhau như nhận dạng chú thích hình ảnh và bảng để hiểu sâu hơn về nội dung của ảnh tài liệu và triển khai vào thực tế thông qua các ứng dụng điện thoại thông minh.

Nguồn: Phượng An

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin