Skip to content
  • Tiếng Việt
  • English

Sinh viên Khoa học Dữ liệu có bài báo Khoa học tại hội nghị Khoa học Quốc tế Ranh A 

Bài báo: “ViLexNorm: A Lexical Normalization Corpus for Vietnamese Social Media Text”

Link bài báo: https://arxiv.org/abs/2401.16403

Sinh viên thực hiện:

Nguyễn Thanh Nhi - KHDL2021 - Đồng tác giả chính 

Lê Thanh Phong - KHDL 2021 - Đồng tác giả chính 

Giáo viên hướng dẫn 

Th.S Nguyễn Văn Kiệt 

Tóm tắt bài báo:

Lexical normalization, a fundamental task in Natural Language Processing (NLP), involves the transformation of words into their canonical forms. This process has been proven to benefit various downstream NLP tasks greatly. In this work, we introduce ViLexNorm, the first-ever corpus developed for the Vietnamese lexical normalization task. The corpus comprises over 10,000 pairs of sentences meticulously annotated by human annotators, sourced from public comments on Vietnam's most popular social media platforms. Various methods were used to evaluate our corpus, and the best-performing system achieved a result of 57.74% using the Error Reduction Rate (ERR) metric (van der Goot, 2019a) with the Leave-As-Is (LAI) baseline. For extrinsic evaluation, employing the model trained on ViLexNorm demonstrates the positive impact of the Vietnamese lexical normalization task on other NLP tasks. Our corpus is publicly available exclusively for research purposes.

"Nhóm chúng em xin gửi lời cảm ơn chân thành nhất đến Thầy ThS. Nguyễn Văn Kiệt đã dành nhiều thời gian và tâm huyết để dẫn dắt nhóm trong quá trình nghiên cứu và công bố bài báo. Chúng em cũng xin cảm ơn Thầy ThS. Lưu Thanh Sơn đã hỗ trợ nhóm trong quá trình thực nghiệm. Ngoài ra, nhóm xin gửi lời cảm ơn đến các giảng viên và trợ giảng Khoa Khoa học và Kỹ thuật Thông tin đã đóng góp những ý kiến quý báu trong quá trình thực hiện đề tài này."

The 18th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2024), ranked A, is the flagship European conference dedicated to European and international researchers, covering a wide spectrum of research in Computational Linguistics and Natural Language Processing.

Mọi thông tin chi tiết xem tại: https://www.facebook.com/UIT.Fanpage/posts/pfbid02qcuaXwc8yjKigg7AZ6QBSq...

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin