Skip to content

[AI Tempo Run] Giới thiệu bài toán Scene Text Detection

Chương trình Al Tempo Run của CLB AI Khoa học Máy tính giới thiệu đến các bạn sinh viên bài toán Scene Text Detection. 

Ngày nay, kết quả từ lĩnh vực Thị giác máy tính (Computer Vision) đã được áp dụng vào trong nhiều lĩnh vực thực tế và đóng một vai trò quan trọng trong các hệ thống giao thông thông minh, hệ thống điểm danh sử dụng khuôn mặt, nhận diện biển báo giáo thông, … Khi xét riêng về bài toán xác định và nhận diện văn bản trong ảnh (text localization – detection and recognition) cũng được áp dụng rộng rãi trong đời sống như nhận diện biển số xe, tự động đọc các giấy tờ tùy thân như CMTNDD, CCCD. Điểm chung của các hệ thống này đó là bước đầu phải xác định được ví trí chứa văn bản (text) trong ảnh – bài toán Text Detection/Localization.

Trích xuất nội dung text từ ảnh đã được cộng đồng nghiên cứu quan tâm từ lâu. Trong bài toán này dựa vào cách tạo ra dữ liệu người ta có thể chia ảnh chứa text thành 2 loại như sau: (1) Graphic text ảnh mà có text được thêm vào sau khi đã có ảnh ví dụ subtitle của phim, … (2) Scene Text – ảnh mà có text xuất hiện ở dạng tự nhiên – text là thành phần có sẵn trong ảnh. Trong đó, các dữ liệu liên quan đến Scene Text có nhiều thách thức liên quan như độ đa dạng về font chữ, góc nhìn, màu sắc, … 

Trong lĩnh vực này, người ta có thể chia nhỏ bài toán nhận dạng văn bản trong ảnh thành một số bước cũng như bài toán con như sau: Text Localization, Text Verification, Text Detection, Text segmentation, Text recognition.

Cùng tác giả Tùng Lê tìm hiểu thêm về bài toán Scene Text Detection cũng như các chủ đề xoay quanh bài toán này tại đây: http://tutorials.aiclub.cs.uit.edu.vn/?p=3771

Thông tin chi tiết: https://www.facebook.com/uit.cs.aiclub/

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin