Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

CN, 29/10/2023 - 14:45

Phạm Minh Mẫn - CH1802054

Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn bản,... Với sự phát triển không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước. Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so với các ngôn ngữ khác như tiếng Anh, tiếng Trung,… Do đó, luận văn nghiên cứu sâu hơn về đề tài này.

Về mặt thực tiễn, rút trích quan hệ có nhiều ứng dụng trong các lĩnh vực bao gồm:

- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá cả sản phẩm, phân tích tâm lý của khách hàng.

- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước...

Về mặt khoa học, nghiên cứu có những đóng góp sau:

- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

- Thảo luận, đánh giá các phương pháp rút trích quan hệ và phương pháp xử lý phân giải đồng tham chiếu, đồng thời đề xuất một số hướng phát triển tiếp theo của bài toán.

Luận văn đã đạt được những kết quả sau:

- Nắm được tổng thể về bài toán rút trích quan hệ, tình hình các nghiên cứu trong nước và trên thế giới, các xu hướng phát triển của bài toán rút trích quan hệ và các bài toán có liên quan như phân giải đồng tham chiếu.

- Trên cơ sở kế thừa và nghiên cứu các mô hình kết hợp dựa trên BERT để xử lý bài toán RE trong tiếng Việt, luận văn so sánh mô hình kết hợp dựa trên mô hình PhoBERT và XLM-RoBERTa [22] với mô hình đơn lẻ như PhoBERT. Từ đó, có thể thấy rằng phương pháp áp dụng các mô hình kết hợp cho kết quả tối ưu hơn so với phương pháp áp dụng mô hình đơn lẻ.

- Đề xuất, đánh giá phương pháp phân giải đồng tham chiếu mới cho văn bản tiếng Việt để phục vụ cho bài toán rút trích quan hệ với F1 dựa trên ba độ đo MUC, B3, CEAFe lần lượt đạt 66.50%, 82.70%, 76.26%.

- Xây dựng hệ thống demo cho bài toán RE trong văn bản tiếng Việt.

Tuy nhiên, ngoài các kết quả đạt được, luận văn vẫn còn một vài hạn chế sau:

- Chưa giải quyết bài toán mất cân bằng dữ liệu trong việc huấn luyện mô hình RE trong tiếng Việt.

- Chưa kết hợp kết quả của bài toán đồng tham chiếu vào hệ thống RE đã xây dựng.

Mọi thông tin chi tiết xem tại: https://fit.uit.edu.vn/index.php/tin-tuc/goc-hoc-tap/6485-rut-trich-quan-h-gi-a-cac-th-c-th-trong-van-b-n-ti-ng-vi-t

Hạ Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin

Bài viết nổi bật

07.2025

10

Ngành Công nghệ Thông tin: Hành trang vững chắc cho tương lai số UIT

Giới thiệu chung Trong bối cảnh chuyển đổi số đang diễn ra mạnh mẽ trên toàn cầu, ngành Công nghệ Thông tin đã trở...

07.2025

09

Hội nghị điển hình tiên tiến cấp trường giai đoạn 2020-2025:... UIT

Sáng ngày 07/08/2025, tại Hội trường E, Trường Đại học Công nghệ Thông tin, ĐHQG-HCM đã long trọng tổ chức Hội nghị...

07.2025

09

Học thêm VĂN BẰNG 2 – Bước nhảy vọt cho sự nghiệp và đam mê của... UIT

Bạn còn chần chừ gì khi: Sự nghiệp cần bứt phá? Đam mê vẫn ấp ủ? Cơ hội mới cứ trôi qua? 4 lý do không thể bỏ lỡ để...

07.2025

09

Học thêm VĂN BẰNG 2 – Bước nhảy vọt cho sự nghiệp và đam mê của... UIT

Bạn còn chần chừ gì khi: Sự nghiệp cần bứt phá? Đam mê vẫn ấp ủ? Cơ hội mới cứ trôi qua? 4 lý do không thể bỏ lỡ để...

07.2025

09

Mùa hè xanh 2025 - Vì đàn em x Văn nghệ xung kích UIT

HẠ VỀ CÙNG NẮNG – ĐÊM NHẠC GÂY QUỸ "Hạ đến không một mình – mà về cùng nắng, cùng yêu thương" Đừng để hạ chỉ là mùa...

Trường đại học Công nghệ Thông tin

SỨ MẠNG

- Trường Đại học Công nghệ Thông tin là một trung tâm đào tạo đại học, sau đại học cung cấp nguồn nhân lực chất lượng cao, nhằm đáp ứng nhu cầu của thị trường lao động và phục vụ cộng đồng.

- Trường Đại học Công nghệ Thông tin là một trung tâm hàng đầu về nghiên cứu khoa học và chuyển giao công nghệ về công nghệ thông tin – truyền thông và các lĩnh vực liên quan.

TẦM NHÌN

Trường Đại học Công nghệ Thông tin trở thành trường đại học uy tín về công nghệ thông tin – truyền thông và các lĩnh vực liên quan trong khu vực Châu Á.

Liên kết nhanh

Liên hệ

ĐỊA CHỈKhu phố 34, Phường Linh Xuân, Thành phố Hồ Chí Minh.
ĐIỆN THOẠI(028) 372 52002
FAX(028) 372 52148
EMAILinfo@uit.edu.vn

Biểu mẫu tìm kiếm

Đăng nhập

Bạn đang ở đây

Rút trích quan hệ giữa các thực thể trong văn bản tiếng Việt

Bài viết liên quan

Trang

Bài viết nổi bật