Skip to content

Dự án của nhóm sinh viên ngành Khoa học dữ liệu đạt huy chương Vàng Giải thưởng Thiết kế - Chế tạo - Ứng dụng 2021

Vừa qua, dự án “ViSomeCens - Vietnamese Social Media Censorship” (Kiểm duyệt Truyền thông Xã hội Việt Nam) của nhóm sinh viên trường ĐH Công nghệ Thông tin (ĐHQG-HCM) đã đồng thời đoạt giải Nhì cuộc thi Lập trình MAKERTHON lần 5, Huy chương Vàng Giải thưởng Thiết kế - Chế tạo - Ứng dụng 2021 và giải Khuyến Khích cuộc thi EUREKA.

Đây là dự án có sự tham gia của 4 sinh viên đến từ Khoa Khoa học và Kỹ thuật Thông tin của trường gồm: Hoàng Gia Phú, Lưu Đức Cảnh, Võ Trần Đông Dương (sinh viên năm 3 ngành Khoa học Dữ liệu) và Trần Quốc Khánh (sinh viên năm 4 ngành Khoa học Dữ liệu).

Theo Gia Phú, tiếng Việt là một ngôn ngữ phức tạp, đặc biệt là tiếng Việt được sử dụng trên mạng xã hội. Ngôn ngữ mạng thay đổi liên tục, theo từng xu hướng. Chính vì vậy, việc tìm kiếm một cấu trúc nhất định cho ngôn ngữ mạng là điều vô cùng khó. “Nắm bắt được điều đó, cộng thêm với tình trạng bạo lực qua mạng xã hội ngày càng tăng cao, nhóm mình đã quyết định cùng nhau thực hiện đề tài này” – Gia Phú thông tin.

Đề tài “ViSomeCens - Vietnamese Social Media Censorship” thuộc lĩnh vực Khoa Học Dữ Liệu, nhánh xử lý ngôn ngữ, phân loại văn bản. Ban đầu, nhóm tiến hành thu thập các dữ liệu tĩnh bao gồm các bình luận, trạng thái, ngôn ngữ đang thịnh hành trên mạng xã hội. Sau đó, nhóm làm việc trên các dữ liệu và huấn luyện cho hệ thống nhận biết các ngôn ngữ bạo lực, tấn công. Cuối cùng, hệ thống sẽ được đem đi xử lý các dữ liệu động là các bình luận, trạng thái xuất hiện trực tiếp trên nền tảng mạng xã hội.

Mô hình huấn luyện dựa trên những dữ liệu đã được lập trình sẵn, sau khi đã nhận diện và phát hiện ngôn từ xúc phạm trên mạng xã hội, cảnh báo sẽ được gửi về cho quản trị viên của nền tảng mạng xã hội đó. 

“Tuy hiện tại, dự án đã có thể xử lý được 80% những ngôn từ xúc phạm, bạo lực trên không gian mạng những vấn còn tồn đọng những hạn chế. Cụ thể, mô hình hiện tại vẫn chỉ đang hoạt động dựa trên các từ khóa có sẵn được lập trình và huấn luyện. Đối với những từ khóa lắt léo, mang nhiều nghĩa khác thì mô hình chưa thể xử lý” - Quốc Khánh cho biết.

“ViSomeCens - Vietnamese Social Media Censorship” được thực hiện trong khoảng 5 tháng với nhiều giai đoạn. Gia Phú chia sẻ: “Trong quá trình thực hiện dự án, tính mới của mô hình chính là thử thách lớn mà nhóm phải vượt qua. Về cơ bản, vẫn chưa có nhiều nghiên cứu về xử lý ngôn ngữ tiếng Việt, chính vì vậy, việc tìm kiếm tài liệu nghiên cứu là rất khó khăn”.

Bên cạnh đó, việc thực hiện nghiên cứu trong thời điểm dịch bệnh trở nên căng thẳng, mọi vấn đề giao tiếp đều phải thực hiện online đã làm giảm tính kết nối của các thành viên. “Tuy nhiên, nhờ sự hỗ trợ của ThS. Nguyễn Văn Kiệt là giảng viên hướng dẫn, sự hỗ trợ từ phía nhà trường, chúng mình đã có thể vượt qua và đạt được thành quả này” – Gia Phú cho biết thêm.

Chia sẻ về những dự định trong tương lai, nhóm dự án cho biết: “Nhóm sẽ tiếp tục phát triển và cải thiện thêm mô hình này. Bên cạnh đó, nhóm cũng mong có thể nhận được sự chú ý từ các nhà tài trợ để có thêm tiềm lực tiếp tục quá trình nghiên cứu”.

Nguồn: Phượng An - Tuyển sinh UIT

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin