Skip to content
  • Tiếng Việt
  • English

Từ ý tưởng đồ án môn học đến bài báo khoa học được chấp nhận đăng tại Hội nghị quốc tế Hạng A*

Mới đây, sinh viên UIT đã hoàn thành xuất sắc nghiên cứu khoa học xử lý ngôn ngữ tự nhiên và được đăng tải tại Hội nghị “The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023)” được xếp hạng A* theo CORE2023. 

Bài báo khoa học “ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing” được nghiên cứu bởi 2 sinh viên Nguyễn Quốc Nam (Tác giả chính) và Phan Châu Thắng (Đồng tác giả) hiện đang là theo học ngành Khoa học Dữ liệu thuộc Khoa Khoa học và Kỹ thuật Thông tin. 

Nguyễn Quốc Nam và Châu Phan Thắng - Tác giả của bài báo nghiên cứu khoa học được chấp nhận đăng tại Hội nghị quốc tế Hạng A*

Hãy cùng gặp gỡ và trò chuyện với sinh viên Quốc Nam để hiểu thêm về hành trình nghiên cứu khoa học của bạn:

1. Đâu là lý do để bạn lựa chọn đề tài Xử lý ngôn ngữ tự nhiên để nghiên cứu?

Mình rất thích nghiên cứu, đặc biệt là về Xử lý ngôn ngữ tự nhiên. Và hiện nay, lĩnh vực này cũng rất được quan tâm bởi người trong và ngoài ngành. Tuy nhiên, ở Việt Nam mô hình ngôn ngữ chuyên biệt cho mạng xã hội vẫn chưa được phát triển. 

Nhận thấy vấn đề đó, nhóm mình quyết định nghiên cứu mô hình ngôn ngữ ViSoBERT. ViSoBERT được huấn luyện trên dữ liệu của các nền tảng mạng xã hội lớn tại Việt Nam như Facebook, YouTube và TikTok. 

Khi thực hiện thì mô hình đã có kết quả vượt trội trên hàng loạt các tác vụ của Xử lý ngôn ngữ tự nhiên trên dữ liệu truyền thông xã hội. Những kết quả này có thể giúp góp phần nâng cao hiệu suất và thúc đẩy phát triển hàng loạt ứng dụng như kiểm duyệt thông tin và các hệ thống lắng nghe trên mạng xã hội tại Việt Nam.

2. Chia sẻ một chút về cảm xúc của bạn khi bài báo nghiên cứu được đăng tại Hội nghị EMNLP 2023 rank A* theo CORE2023

Phấn khích và đầy tự hào. Bởi đây là thành quả của sự cố gắng không ngừng nghỉ, là thời gian, công sức mà chúng mình bỏ ra suốt thời gian qua. Chúng mình tự hào bởi thành tích này đã đóng góp 1 phần nhỏ vào cộng đồng nghiên cứu xử lý ngôn ngữ của Việt Nam nói riêng và thế giới nói chung.

Tuy nhiên, thành công luôn đi kèm với trách nhiệm. Chúng mình sẽ tiếp tục nỗ lực, phát triển và đóng góp cho lĩnh vực nghiên cứu xử lý ngôn ngữ và trí tuệ nhân tạo. Đây cũng là động lực cho mình tiến bước trong sự nghiệp nghiên cứu khoa học.

Với sự nỗ lực không ngừng nghỉ, Nguyễn Quốc Nam đã phát triển các bài báo nghiên cứu khoa học chất lượng.

3. Thuận lợi và khó khăn mà nhóm bạn gặp phải trong quá trình nghiên cứu?

Khó khăn lớn nhất chúng mình gặp phải là máy tính cấu hình mạnh đủ để làm hàng loạt các thử nghiệm, với khoảng hơn 300 thử nghiệm. Với đề tài này, mình cần khá nhiều máy để chạy thử nghiệm, thường xuyên phải đi thuê servers để thực hiện các thử nghiệm. Giảng viên hướng dẫn đã hỗ trợ nhiều trong vấn đề này, giúp chúng mình hoàn thành được đề tài nghiên cứu.

Bên cạnh đó, việc phân tích, thử nghiệm nhiều khía cạnh của ngôn ngữ mạng xã hội như phân tích về Emoji, phân tích về Teencode, dấu câu cũng như những đặc trưng của ngôn ngữ mạng xã hội cũng mang tính thách thức cần chúng mình nỗ lực nhiều hơn để có kết quả tốt nhất.

Thắng có thế mạnh về thiết kế và thử nghiệm các mô hình ngôn ngữ, tạo nên sự đa dạng các thử nghiệm và đánh giá các mô hình theo nhiều góc nhìn khác nhau.

Mình và Châu Thắng cũng đã có khoảng thời gian dài làm việc cùng nhau nên khá hiểu ý, giao tiếp, trao đổi trở nên dễ dàng hơn rất nhiều. Mình và Thắng có điểm  mạnh và điểm yếu riêng, bổ sung cho nhau, bù đắp các thiếu sót của nhau. Ví dụ mình có khả năng lên ý tưởng, viết, lập luận và thực hiện chặt chẽ theo kế hoạch. Thắng mạnh về thiết kế và thử nghiệm các mô hình ngôn ngữ để tạo nên sự đa dạng các thử nghiệm. Điều này giúp quá trình nghiên cứu của chúng mình thuận lợi và nhanh chóng đạt kết quả theo yêu cầu của giảng viên hướng dẫn.

4. UIT đã hỗ trợ bạn như thế nào trong quá trình học tập, nghiên cứu?

Bài báo này bắt nguồn từ một ý tưởng của môn Đồ án Khoa học Dữ liệu. Mình may mắn nhận được sự hỗ trợ nhiệt tình và tận tâm từ giảng viên ThS. Nguyễn Văn Kiệt và ThS. Nguyễn Đức Vũ. Từ đó, ý tưởng nhỏ phát triển thành bài nghiên cứu chất lượng được đăng tại Hội nghị quốc tế hạng A* trong lĩnh vực Xử lý ngôn ngữ tự nhiên.

UIT là một ngôi trường tuyệt vời để các bạn sinh viên phát triển bản thân từ các kỹ năng mềm, kiến thức chuyên sâu và con đường nghiên cứu cũng như công việc sau này của bản thân. Mình cũng xin gửi lời cảm ơn đến các Thầy Cô Khoa Khoa học và Kỹ thuật Thông tin nói riêng và những Thầy Cô trường Đại học Công nghệ Thông tin - ĐHQG-HCM nói chung vì luôn tận tâm giảng dạy và hỗ trợ mình cũng như các bạn sinh viên nói chung.

Gửi đến các bạn sinh viên đang học tập tại UIT: Hãy cố gắng hết mình, dù là nghiên cứu hay đi làm, thành công sẽ luôn đến với người thực sự nỗ lực các bạn nhé!


Một số thành tích của bạn Nguyễn Quốc Nam, KHDL2020, ngành Khoa học Dữ liệu Khoa Khoa học và Kỹ thuật Thông tin:

  • Tác giả chính 01 bài báo tại hội nghị "The 2023 Conference on Empirical Methods in Natural Language Processing" (Hạng A* CORE2023)
  • Đồng tác giả 01 bài báo tại hội nghị "The 10th IEEE International Conference on Data Science and Advanced Analytics (DSAA 2023)” (Hạng B CORE2023)
  • Đồng tác giả 01 bài báo tại hội nghị “The 12th International Symposium on Information and Communication Technology (SOICT 2023)”

 

Như Ý - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin