Bài báo: “Binary Representation Embedding and Deep Learning for Binary Code Similarity Detection in Software Security Domain”
Link bài báo: https://drive.google.com/drive/folders/15hSoSif81vsA48jUSVBHOdUrDuI7OXsf
Sinh viên thực hiện:
Nguyễn Hùng Thịnh - 20521962 - ATCL2020 - Tác giả chính
Nguyễn Phúc Hải - 20521281 - ATTT2020 - Đồng tác giả
Trần Đình Khoa - 22520689 - ATTN2022 - Đồng tác giả
Lê Trần Thành Nhân - 19520799 - ATTN2019 - Đồng tác giả
Giáo viên hướng dẫn:
TS. Phạm Văn Hậu
ThS. Phan Thế Duy
Tóm tắt bài báo:
Phát hiện tương đồng mã nhị phân (Binary Code Similarity Detection - BCSD) là quá trình phân tích biểu diễn nhị phân của hai hàm, chương trình hoặc các thực thể có liên quan để tạo ra một đầu ra số học biểu thị độ tương đồng giữa chúng. Lĩnh vực nghiên cứu tương đồng nhị phân tương đối rộng, bao gồm nhiều nhiệm vụ khác nhau, chẳng hạn như giải quyết vấn đề tìm kiếm nhị phân, bao gồm tìm kiếm các đoạn mã trong tệp hoặc hàm nhị phân tương đồng với đoạn mã nhị phân cụ thể. Khả năng đã này mở ra nhiều ứng dụng tiềm năng cho lĩnh vực BCSD như phát hiện lỗ hổng phần mềm trên một tập lớn phần mềm cần kiểm thử, phát hiện và phân tích phần mềm độc hại, phát hiện họ mã độc,... Trong bài báo này, chúng tôi giới thiệu BiSim-Inspector, một công cụ phát hiện tương đồng mã nhị phân dựa trên học sâu. Công cụ này tận dụng phương pháp “bytes2vec” do chúng tôi phát triển để chuyển đổi bytecode của các hàm nhị phân thành các vector, sau đó đưa chúng vào mô hình Convolutional Neural Network - Gated Recurrent Unit (CNN-GRU) để kiểm tra độ tương đồng. Ngoài ra, chúng tôi đã tiến hành một loạt các thí nghiệm để đánh giá hiệu suất của phương pháp đã đề xuất bằng cách so sánh với các công cụ tốt nhất trong lĩnh vực hiện tại. Chúng tôi tận dụng một tập dữ liệu lớn, có cấu trúc tốt và đa dạng, được tạo ra cho công việc phát hiện tương đồng nhị phân là BinaryCorp. Kết quả của các thí nghiệm cho thấy rằng mô hình của chúng tôi đạt được tỷ lệ Recall là 89%, cao hơn 25% so với các phương pháp cùng lĩnh vực, mà vẫn giữ được chi phí tính toán hợp lý cùng với thời gian để huấn luyện mô hình và đưa ra dự đoán tương đồng là không đổi.
Chúng em xin gửi lời cảm ơn to lớn đến Thầy Phạm Văn Hậu – Trưởng bộ môn An toàn thông tin đã tạo ra một môi trường học thuật vô cùng năng động dành cho các bạn sinh viên chúng em tham gia, cảm ơn Thầy Phan Thế Duy – Phó Trưởng phòng Phòng thí nghiệm An toàn thông tin đã luôn đồng hành, định hướng và lan tỏa niềm say mê nghiên cứu để chúng em ngày càng hoàn thiện công trình nghiên cứu và hoàn thiện bản thân mình, cảm ơn thầy Ngô Khánh Khoa và thầy Tô Trọng Nghĩa đã đưa ra những góp ý quý giá để nhóm hoàn thiện nội dung và đạt được công bố bài báo khoa học tại hội nghị SOICT 2023.
SOICT (Symposium on Information and Communication Technology) là một hội nghị quốc tế bao gồm các lĩnh vực nghiên cứu quan trọng như AI Foundations and Big Data, Network Communication and Security, Image and Natural Language Processing, Software Engineering and Digital Technology, Blockchain, và Operations Research trends… Hội nghị quốc tế lần thứ 12 SoICT 2023 sẽ diễn ra tại TP. HCM do Trường Công nghệ thông tin và Truyền thông - ĐH Bách Khoa Hà Nội, ĐH Khoa học Tự nhiên - ĐHQG TP. HCM, Laboratory Informatics, Modelling and Optimisation System (LIMOS), The French National Centre for Scientific Research (CNRS) và Viện nghiên cứu cao cấp về toán phối hợp tổ chức vào ngày 07-08.12.2023. Mục tiêu của hội nghị SOICT là cung cấp một diễn đàn học thuật cho các nhà nghiên cứu và sinh viên sau đại học để chia sẻ các kết quả nghiên cứu mới nhất và xác định những thách thức về khoa học máy tính trong tương lai.
Thông tin chi tiết: https://www.facebook.com/UIT.Fanpage/posts/pfbid02G5Mkte971JhXA6u3n966RJx9H5D2QXrYQ6qBcp3ZZ9YarwxRoAZwg7DJUznDyDkCl
Hải Băng - Cộng tác viên Truyền thông trường Đại học Công nghệ Thông tin