Chúc mừng 2 sinh viên Khoa học Dữ liệu có bài báo khoa học được đăng tại Hội nghị Quốc tế về Khoa học Dữ liệu và Phân tích nâng cao (DSAA)

T4, 01/11/2023 - 18:49

Bài báo: “A Text-based Approach For Link Prediction on Wikipedia Articles”

Sinh viên thực hiện:

Trần Hoàng Anh – 20521079 – KHDL2020 – Tác giả chính

Nguyễn Minh Tâm – 20520748 – KHDL2020 – Đồng tác giả

Giảng viên hướng dẫn: ThS. Lưu Thanh Sơn.

Tóm tắt bài báo:

Wikipedia là bộ bách khoa toàn thư lớn nhất nơi các bài viết được liên kết với nhau bằng các siêu liên kết. Bằng cách dự đoán các liên kết trong tương lai giữa các bài viết, chúng ta có thể nâng cao khả năng điều hướng và khám phá của mạng, đồng thời cung cấp cho người dùng các bài viết có liên quan và nhiều thông tin hơn thông qua các liên kết. Cuộc thi DSAA 2023 tập trung vào nhiệm vụ dự đoán liên kết được áp dụng cho các bài viết trên Wikipedia. Trong thử thách này, chúng em được cung cấp một sơ đồ con bị phân tán của mạng Wikipedia và mục tiêu của chúng tôi là dự đoán xem liệu có tồn tại một liên kết giữa hai trang Wikipedia u và v hay không. Đặc biệt, chúng em được cung cấp một tệp sự thật cơ bản chứa các cặp nút tương ứng đối với các mẫu positive hoặc negative. Nếu một cạnh (edge) tồn tại giữa hai nút thì nhãn tương ứng được đặt thành 1, nếu không thì nhãn là 0. Tuy nhiên, nếu một cặp nút không được báo cáo trong tệp, điều này không có nghĩa là không có cạnh nào giữa chúng. Một số cặp nút bị thiếu này sẽ xuất hiện trong tệp thử nghiệm và chúng ta sẽ phải dự đoán liệu có liên kết giữa chúng hay không.

Trong bài viết này, chúng em sẽ trình bày cách tiếp cận và giải pháp của nhóm cho bài toán này. Cách tiếp cận của nhóm dựa trên văn bản, và chúng tôi đã sử dụng tính năng gán nhãn Part-Of-Speech (POS) để trích xuất các đặc điểm từ văn bản. Trước khi chạy các mô hình dự đoán, trước tiên nhóm đã phân tích và trực quan hóa dữ liệu để hiểu thêm về tập dữ liệu. Tiếp theo, nhúng (embedding) các nút bằng cách sử dụng POS Tagging và đồng thời cũng tiến hành thống kê t-test để chọn thẻ. Cuối cùng, chạy các mô hình phân loại trên tập dữ liệu được nhúng. Hầu hết các mô hình chúng tôi sử dụng đều là mô hình Machine Learning cổ điển, đảm bảo tính hiệu quả cho phương pháp tiếp cận của chúng tôi. Phương pháp của chúng tôi đã lưu trữ 0,99999 trong cả tập thử nghiệm public và private, đồng thời xếp hạng 3 chung cuộc trong cuộc thi.

"Chúng em xin gửi lời cảm ơn đến thầy Lưu Thanh Sơn đã cùng đồng hành và hướng dẫn nhóm chúng em trong quá trình tham gia cuộc thi và công bố bài báo khoa học quốc tế này"

Hội nghị quốc tế IEEE lần thứ 10 về Khoa học dữ liệu và phân tích nâng cao (DSAA) nêu bật sức mạnh tổng hợp liên ngành mạnh mẽ giữa thống kê, máy tính và thông tin/khoa học trí tuệ cũng như tương tác giữa các miền giữa giới học thuật và doanh nghiệp về khoa học và phân tích dữ liệu. DSAA thiết lập tiêu chuẩn cao cho ban tổ chức, các bài phát biểu quan trọng, bài nộp cho hội nghị chính và các phiên họp đặc biệt cũng như tỷ lệ chấp nhận giấy cạnh tranh. DSAA đã được công nhận rộng rãi là cuộc họp thường niên chuyên dụng hàng đầu về khoa học và phân tích dữ liệu, chẳng hạn như Google Metrics và China Computer Foundation. DSAA 2023 cung cấp một diễn đàn hàng đầu quy tụ các nhà nghiên cứu, các nhà thực hành trong ngành và chính phủ, cũng như các nhà phát triển và người sử dụng giải pháp dữ liệu lớn để trao đổi những phát triển lý thuyết mới nhất trong Khoa học dữ liệu và phương pháp thực hành tốt nhất cho nhiều ứng dụng. DSAA 2023 mời gửi các bài báo mô tả nghiên cứu đổi mới về tất cả các khía cạnh của khoa học dữ liệu và phân tích nâng cao cũng như các bài báo hướng đến ứng dụng có những đóng góp quan trọng, nguyên bản và có thể tái tạo để cải thiện việc thực hành khoa học và phân tích dữ liệu trong các tình huống thực tế.

Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid032wBfBMLpsoZkqZNzy1oK7vqw9xRqSFMbq3XmkrpDc5nPCWfNXd2xdnPk58nEW8VQl

Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin

Bài viết nổi bật

04.2024

25

UIT vinh dự đón tiếp Phó chủ tịch Tập đoàn NVIDIA - 'Gã... UIT

UIT vinh dự đón tiếp Phó chủ tịch Tập đoàn NVIDIA - 'Gã khổng lồ' về sản xuất chip Trường Đại học Công nghệ Thông tin...

03.2024

13

GIÁO SƯ ĐẠI HỌC CÔNG NGHỆ NANYANG, SINGAPORE TRUYỀN CẢM HỨNG ĐAM...

GIÁO SƯ ĐẠI HỌC CÔNG NGHỆ NANYANG, SINGAPORE TRUYỀN CẢM HỨNG ĐAM MÊ CHO SINH VIÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN...

03.2024

01

TALKSHOW KỸ NĂNG "START YOUR PASSION"

TALKSHOW KỸ NĂNG "START YOUR PASSION" Một chương trình do Trường Đại học Công nghệ Thông tin tổ chức với sự xuất hiện...

02.2024

29

Khoa Hệ thống Thông tin, Trường Đại học Công nghệ Thông tin...

KHOA HỆ THỐNG THÔNG TIN, TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHÍNH THỨC GIA NHẬP THE IS:LINK NETWORK Vừa qua, khoa...

02.2024

15

Thông Điệp Chào Năm Mới - Mừng Xuân Giáp Thìn 2024 của Hiệu...

THÔNG ĐIỆP CHÀO NĂM MỚI - MỪNG XUÂN GIÁP THÌN 2024 Cùng vẫy tay tạm biệt năm cũ, đón chào năm mới với nhiều ước mơ...

Trường đại học Công nghệ Thông tin

SỨ MẠNG

- Trường Đại học Công nghệ Thông tin là một trung tâm đào tạo đại học, sau đại học cung cấp nguồn nhân lực chất lượng cao, nhằm đáp ứng nhu cầu của thị trường lao động và phục vụ cộng đồng.

- Trường Đại học Công nghệ Thông tin là một trung tâm hàng đầu về nghiên cứu khoa học và chuyển giao công nghệ về công nghệ thông tin – truyền thông và các lĩnh vực liên quan.

TẦM NHÌN

Trường Đại học Công nghệ Thông tin trở thành trường đại học uy tín về công nghệ thông tin – truyền thông và các lĩnh vực liên quan trong khu vực Châu Á.

Liên kết nhanh

Liên hệ

ĐỊA CHỈKhu phố 6, P.Linh Trung, Tp.Thủ Đức, Tp.Hồ Chí Minh.
ĐIỆN THOẠI(028) 372 52002
FAX(028) 372 52148
EMAILinfo@uit.edu.vn

Biểu mẫu tìm kiếm

Đăng nhập

Bạn đang ở đây

Chúc mừng 2 sinh viên Khoa học Dữ liệu có bài báo khoa học được đăng tại Hội nghị Quốc tế về Khoa học Dữ liệu và Phân tích nâng cao (DSAA)

Bài viết liên quan

Trang

Bài viết nổi bật