Skip to content
  • Tiếng Việt
  • English

CHÚC MỪNG NHÓM BẠN THÂN CÙNG LỚP ĐẠT BÀI BÁO KHOA HỌC TẠI HỘI NGHỊ QUỐC TẾ

Trường Đại học Công nghệ Thông tin xin được chúc mừng nhóm sinh viên đã có bài báo khoa học Hội nghị Quốc tế lần thứ 20 Intelligent Software Methodologies, Tools, and Techniques (SOMET 2021) sẽ tổ chức tại thành phố Cancun, Quintana Roo, Mexico.

Hội nghị Quốc tế lần thứ 20 Intelligent Software Methodologies, Tools, and Techniques (SOMET 2021) sẽ tổ chức tại thành phố Cancun, Quintana Roo, Mexico. Sự kiện này là sự tiếp nối của một loạt hội nghị SOMET đã được tổ chức. Chuỗi hội nghị này nêu bật và phản ánh xu hướng hiện đại và mới mẻ về phương pháp luận, công cụ và ứng dụng trí thông minh nhân tạo. Các giải pháp được đề xuất giúp xây dựng một diễn đàn trao đổi ý tưởng và kinh nghiệm nhằm thúc đẩy các hướng đi mới trong việc ứng dụng các giải pháp khoa học vào phục vụ đời sống. Hội nghị này tập trung vào việc khám phá những đổi mới và thách thức mà cộng đồng khoa học ngày nay phải đối mặt. Hội nghị kết hợp giữa lý thuyết và thực nghiệm để đề xuất và đánh giá các giải pháp cho các bài toán Kỹ thuật phần mềm. Hội nghị cũng cung cấp một diễn đàn và cơ hội để đánh giá tình trạng hiện đại của các kỹ thuật Phần mềm thông minh và trí thông minh nhân. Hội nghị này là cơ hội để chúng ta, những người trong cộng đồng khoa học suy nghĩ về vị trí của chúng ta và những định hướng, mục tiêu của chúng ta trong tương lai.

Bài báo: “An Empirical Investigation of Online News Classification on an open- domain, large-scale and high-quality Dataset in Vietnamese, SOMET (2021)” được thực hiện bởi nhóm sinh viên: 

  • Trần Quốc Khánh - 18520908 - KHDL2018
  • TRịnh Ngọc Pháp - 18521227 - KHDL2018
  • Lê Trần Hoài Ân 18520426- KHDL2018
  • Trần Nguyễn Anh Khoa -18520938 - KHDL2018
  • Hà Văn Luân - 18521062 - KHDL2018

Bài báo do giảng viên Th.S Nguyễn Văn Kiệt hướng dẫn.

Trong bài báo này, nhóm sinh viên xây dựng bộ dữ liệu UIT - ViON (Vietnamese Online Newspaper) được thu thập từ các trang báo điện tử nổi tiếng của Việt Nam. Nhóm sinh viên nghiên cứu, xử lý và tạo bộ dữ liệu, sau đó tiến hành thử nghiệm và đánh giá nó bằng cách sử dụng các loại mô hình máy học khác nhau. Đặc biệt, nhóm đề xuất một bộ dữ liệu đa dạng chủ đề, có kích thước lớn và chất lượng cao, bao gồm 260.000 điểm dữ liệu văn bản được chú thích với nhiều nhãn để đánh giá phân loại văn bản ngắn tiếng Việt. Ngoài ra, nhóm sinh viên còn đánh giá bộ dữ liệu đã tạo dựa trên ba loại kỹ thuật học máy bao gồm học máy truyền thống (Naive Bayes, Logistic Regression), học sâu (Text-CNN, LSTM) và học chuyển tiếp (PhoBERT) để phân loại văn bản ngắn tiếng Việt trên tập dữ liệu. Mô hình tốt nhất đạt được điểm F1 là 80,62%. Trong tương lai, nhóm sinh viên sẽ đưa ra các giải pháp để cải thiện chất lượng của tập dữ liệu và cải thiện phân loại hiệu suất của mô hình trong tương lai.

Mọi thông tin chi tiết xem tại:https://www.facebook.com/UIT.Fanpage

 

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin