Bài báo “Towards Understanding the Logical Layout of Scene Text in Signboard Images”
Sinh viên thực hiện:
• Trần Thị Cẩm Giang - KHTN2022 - Tác giả chính
• Trần Như Cẩm Nguyên - KHTN2022 - Tác giả chính
Giảng viên hướng dẫn:
• TS. Ngô Đức Thành
• Thầy Trần Doãn Thuyên
Tóm tắt bài báo:
Scene text analysis stands as a cornerstone of computer vision, with logical layout analysis emerging as a pivotal component for decoding the semantic roles of text regions and advancing scene understanding. While previous research has primarily focused on structured documents, scene text poses unique challenges due to its unstructured and visually diverse nature. In this work, we extend logical layout analysis to signboard images, a domain characterized by complex backgrounds, irregular text placements, diverse viewpoints, unique fonts, varying text sizes, and personalized design styles. These challenges make scene text layout analysis a critical yet underexplored research problem with significant real-world implications. To bridge this gap, we introduce a new benchmark dataset comprising 2,025 manually annotated images from diverse urban environments, containing 44,227 text instances across 9 semantic categories commonly found in signboards. Additionally, we evaluate state-of-the-art logical layout analysis methods on this dataset, providing valuable insights into the challenges and opportunities within this domain.
"Chúng em xin gửi lời tri ân chân thành và sâu sắc đến Thầy hướng dẫn – TS. Ngô Đức Thành – người đã luôn đồng hành, tận tình chỉ dẫn và truyền cảm hứng cho chúng em trong suốt quá trình thực hiện đề tài nghiên cứu. Sự tận tâm, nghiêm túc trong học thuật và những định hướng quý báu từ Thầy đã giúp nhóm không ngừng hoàn thiện bản thân và đạt được kết quả đáng tự hào. Chúng em cũng xin gửi lời cảm ơn chân thành đến "anh" mentor - Thầy Trần Doãn Thuyên vì sự hỗ trợ nhiệt tình, những góp ý sâu sắc và sự đồng hành sát sao trong từng giai đoạn của quá trình nghiên cứu. Những đóng góp quý giá của Thầy và anh là nền tảng vững chắc giúp em vượt qua mọi thử thách để chạm đến cột mốc quan trọng này."
ICDAR2025 – The 19th International Conference on Document Analysis and Recognition is a prestigious rank A international conference dedicated to the field of document analysis and recognition. It will take place in September 2025 in Wuhan, Hubei Province, China. The conference covers key topics such as Optical Character Recognition (OCR), information extraction, document layout analysis, deep learning for text and image understanding, and emerging trends like foundation models for document intelligence. ICDAR serves as a leading forum for researchers and experts in computer vision and artificial intelligence to share insights, foster collaboration, and advance global scientific progress.
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid02zrxQums4reZh638hqCN2hr47rZo9brQ8tu6pLmbhs28oFyUMz2RWSA8kXvYvWzFul