Skip to content
  • Tiếng Việt
  • English

Chúc mừng học viên cao học ngành An toàn thông tin và nhóm nghiên cứu InSecLab có bài báo nghiên cứu được đăng tại hội nghị khoa học quốc tế MAPR 2025

Chúc mừng học viên cao học ngành An toàn thông tin (Khoa Mạng máy tính và truyền thông) cùng nhóm nghiên cứu InSecLab đã có bài báo nghiên cứu được chấp nhận đăng tại hội nghị khoa học quốc tế International Conference on Multimedia Analysis and Pattern Recognition – MAPR 2025, diễn ra vào ngày 14-15/08/2025 tại Nha Trang, Việt Nam.

Tên bài báo: "Multimodal Fusion for Vulnerability Detection: Integrating Sequence and Graph-Based Analysis with LLM Augmentation"

Học viên thực hiện:

Nguyễn Đắc Thiên Ngân – Cao học An toàn thông tin (Khóa 17.2)

GVHD: ThS. Phan Thế Duy, TS. Phạm Văn Hậu

Thông tin chung: Hội nghị International Conference on Multimedia Analysis and Pattern Recognition - MAPR là hội nghị quốc tế thường niên do Trường Đại học Công Nghệ Thông Tin (UIT) đồng sáng lập và tổ chức. Đây là hội nghị khoa học quốc tế thuộc danh mục Scopus-Index. Hội nghị là diễn đàn khoa học để giới học thuật, nghiên cứu trong và ngoài nước đến giao lưu, trao đổi kinh nghiệm. Hội nghị khuyến khích các nghiên cứu sinh, học viên cao học và những nhà khoa học trẻ tham gia báo cáo, trao đổi kết quả nghiên cứu và học tập của bản thân, và đặc biệt những kết quả nghiên cứu có tính ứng dụng thực tiễn.

 

Nội dung bài báo:

Nghiên cứu tập trung vào bài toán phát hiện lỗ hổng bảo mật trong mã nguồn thông qua việc kết hợp ngữ nghĩa tuần tự và đặc trưng cấu trúc từ mã chương trình. Trong bối cảnh dữ liệu gán nhãn còn hạn chế, mô hình ngôn ngữ lớn CodeQwen2.5-3B-Instruct được khai thác để sinh thêm các mẫu mã chứa lỗ hổng, góp phần xây dựng bộ dữ liệu mở rộng mang tên MegaVul+, bao gồm cả dữ liệu gốc và dữ liệu được tăng cường.

Nghiên cứu đánh giá hiệu quả của ba chiến lược kết hợp đa mô hình: nối đặc trưng đơn giản, đơn vị đa mô hình có cổng (GMU), và cơ chế cross-attention. Kết quả cho thấy phương pháp nối đơn giản đạt F1-score cao nhất (31.34%), vượt trội so với các kỹ thuật còn lại cũng như các mô hình chỉ sử dụng một loại đặc trưng. Các kết quả này cho thấy tiềm năng của việc khai thác đa dạng biểu diễn mã nguồn và vai trò tích cực của mô hình ngôn ngữ lớn trong tăng cường dữ liệu cho các hệ thống phát hiện lỗ hổng phần mềm.

Abstract: “Detecting vulnerabilities in source code remains a challenging task due to the complex and diverse ways security flaws can manifest. This study investigates how to effectively combine sequential code semantics and graph-based structural features for improved vulnerability detection. We hypothesize that the choice of fusion strategy plays a critical role in leveraging the complementary strengths of these two modalities. To address the limitation of labeled data, we employ the CodeQwen2.5-3BInstruct large language model to generate augmented vulnerable samples, enriching the original PrimeVul dataset. The resulting dataset, MegaVul+, consists of both human-labeled and LLMaugmented functions, formatted in a standardized JSON structure. Our primary research question centers on identifying the most effective strategy for fusing sequential and structural representations of code. We conduct a comparative evaluation of three multimodal fusion techniques: simple concatenation, gated multimodal units (GMU), and cross-attention mechanisms. Experimental results show that the concatenation-based fusion achieves the best F1-score of 31.34%, outperforming GMU (25.45%), crossattention (25.72%), the sequence-only model (25.01%), and the graph-only model (16.45%). We hypothesize that this advantage arises from the simplicity of concatenation, which preserves raw information from both modalities without introducing additional complexity or overfitting risks—particularly important in settings with imbalanced or noisy data. These findings highlight the potential of combining diverse code representations and demonstrate the value of LLM-driven data augmentation in improving software vulnerability detection.”

Trang chủ hội nghị: https://mapr.uit.edu.vn/

Thông tin chi tiết tại: https://www.facebook.com/share/p/19gm75UKd9/?mibextid=wwXIfr 

Đông Xanh - Cộng tác viên truyền thông Trường Đại học Công nghệ Thông tin