Bài báo “Multimodal Fusion for Vulnerability Detection: Integrating Sequence and Graph-Based Analysis with LLM Augmentation” của học viên cao học Nguyễn Đắc Thiên Ngân - ngành An toàn Thông tin đã có bài báo khoa học được chấp nhận tại Hội nghị Quốc tế MAPR 2025
Hướng dẫn khoa học:
• TS. Phạm Văn Hậu
• ThS. Phan Thế Duy
Tóm tắt nghiên cứu:
Detecting vulnerabilities in source code remains a challenging task due to the complex and diverse ways security flaws can manifest. This study investigates how to effectively combine sequential code semantics and graph-based structural features for improved vulnerability detection. We hypothesize that the choice of fusion strategy plays a critical role in leveraging the complementary strengths of these two modalities. To address the limitation of labeled data, we employ the CodeQwen2.5-3BInstruct large language model to generate augmented vulnerable samples, enriching the original PrimeVul dataset. The resulting dataset, MegaVul+, consists of both human-labeled and LLM-augmented functions, formatted in a standardized JSON structure.
Our primary research question centers on identifying the most effective strategy for fusing sequential and structural representations of code. We conduct a comparative evaluation of three multimodal fusion techniques: simple concatenation, gated multimodal units (GMU), and cross-attention mechanisms. Experimental results show that the concatenation-based fusion achieves the best F1-score of 31.34%, outperforming GMU (25.45%), cross-attention (25.72%), the sequence-only model (25.01%), and the graph-only model (16.45%).
We hypothesize that this advantage arises from the simplicity of concatenation, which preserves raw information from both modalities without introducing additional complexity or overfitting risks—particularly important in settings with imbalanced or noisy data. These findings highlight the potential of combining diverse code representations and demonstrate the value of LLM-driven data augmentation in improving software vulnerability detection.
Lời cảm ơn:
Em xin gửi lời tri ân sâu sắc đến các thầy TS. Phạm Văn Hậu và ThS. Phan Thế Duy cùng nhóm nghiên cứu đã luôn đồng hành, định hướng trong suốt quá trình thực hiện đề tài. Những góp ý chuyên môn và sự kiên nhẫn của quý thầy chính là nguồn động lực giúp em hoàn thiện và phát triển bản thân. Việc được ghi nhận tại hội nghị lần này là một dấu mốc đáng nhớ, phản ánh thành quả từ niềm tin mà thầy cô đã dành cho em.
Về hội nghị:
After the success of the 7th MAPR 2024, we are pleased to announce the 8th International Conference on Multimedia Analysis and Pattern Recognition (MAPR), supported by the Vietnamese Association on Pattern Recognition (VAPR). The conference will be held in Nha Trang, Vietnam, on August 14-15, 2025. The aim of this conference is to bring together researchers and practitioners from academia and industry to share their latest research findings, experimental results, and foster potential collaborations in the areas of pattern recognition, multimedia analysis, and related fields. MAPR is indexed in SCOPUS.
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid0nfEB5NSNRfT2dRgzYZdssKZHqPyQds4CnyhHk9Aiq8qUm5ziJuavHittAkhUzgNyl



