Microsoft Ra Mắt Project Ire – Hệ Thống Tự Động Phân Loại Mã Độc Bằng Trí Tuệ Nhân Tạo

Microsoft vừa công bố một tác nhân trí tuệ nhân tạo (AI agent) tự động có khả năng phân tích và phân loại phần mềm mà không cần sự can thiệp của con người, nhằm nâng cao hiệu quả trong công tác phát hiện mã độc.

Hệ thống phân loại mã độc tự động này, được vận hành bởi mô hình ngôn ngữ lớn (LLM – Large Language Model), hiện đang ở giai đoạn nguyên mẫu và được Microsoft đặt tên mã là Project Ire.

Theo Microsoft, Project Ire “tự động hóa quy trình được coi là tiêu chuẩn vàng trong phân loại mã độc: phân tích đảo ngược (reverse engineering) hoàn chỉnh một tệp phần mềm mà không có bất kỳ thông tin nào về nguồn gốc hoặc mục đích của nó”. Hệ thống sử dụng các công cụ giải mã (decompiler) và nhiều công cụ hỗ trợ khác, phân tích kết quả đầu ra, rồi xác định xem phần mềm là malicious (độc hại) hay benign (an toàn).

Mục tiêu của Project Ire là mở rộng khả năng phân loại mã độc ở quy mô lớn, tăng tốc độ phản ứng trước mối đe dọa, đồng thời giảm thiểu đáng kể khối lượng công việc thủ công mà các nhà phân tích phải thực hiện khi kiểm tra và xác minh mẫu.

Cụ thể, hệ thống tận dụng các công cụ chuyên biệt để thực hiện phân tích đảo ngược ở nhiều cấp độ: từ phân tích nhị phân mức thấp, tái dựng luồng điều khiển (control flow) cho đến diễn giải hành vi mã ở cấp cao.

Microsoft cho biết API sử dụng công cụ (tool-use API) của Project Ire cho phép hệ thống liên tục cập nhật nhận định về tệp dựa trên nhiều công cụ phân tích đảo ngược khác nhau, bao gồm: sandbox phân tích bộ nhớ dựa trên Project Freta, các công cụ tùy chỉnh và mã nguồn mở, tìm kiếm tài liệu, cũng như nhiều decompiler khác nhau.

Project Freta là một sáng kiến của Microsoft Research, cho phép “quét phát hiện” các mã độc chưa bị lộ (chẳng hạn như rootkit hay mã độc tiên tiến) bên trong ảnh chụp bộ nhớ (memory snapshot) của các hệ thống Linux đang hoạt động, trong quá trình kiểm toán bộ nhớ.

Quy trình đánh giá của Project Ire bao gồm nhiều bước:

  1. Công cụ phân tích đảo ngược tự động xác định loại tệp, cấu trúc và các vùng đáng chú ý.

  2. Tái dựng biểu đồ luồng điều khiển (control flow graph) bằng các framework như angr và Ghidra.

  3. LLM gọi các công cụ chuyên biệt qua API để xác định và tóm tắt các hàm quan trọng.

  4. Trình xác thực (validator tool) kiểm tra lại kết quả dựa trên các bằng chứng thu thập được, trước khi đưa ra kết luận phân loại.

  5. Hệ thống tạo nhật ký “chuỗi bằng chứng” (chain of evidence) chi tiết, cho phép đội ngũ bảo mật xem xét và điều chỉnh quy trình trong trường hợp phân loại sai.

Trong các thử nghiệm với tập dữ liệu gồm các driver Windows công khai, hệ thống đã phát hiện chính xác 90% tổng số tệp độc hại và chỉ đánh dấu nhầm 2% tệp an toàn là mã độc. Một bài đánh giá khác với gần 4.000 tệp “hard-target” cho thấy hệ thống phân loại đúng ~90% tệp độc hại, với tỷ lệ dương tính giả (false positive) chỉ 4%.

Dựa trên những kết quả ban đầu này, Microsoft sẽ triển khai Project Ire nguyên mẫu bên trong tổ chức Microsoft Defender, với tên gọi Binary Analyzer, phục vụ phát hiện mối đe dọa và phân loại phần mềm.

Microsoft đặt mục tiêu mở rộng tốc độ và độ chính xác của hệ thống để có thể phân loại đúng các tệp đến từ bất kỳ nguồn nào, ngay cả khi gặp lần đầu. Tầm nhìn cuối cùng là phát hiện mã độc mới trực tiếp trên bộ nhớ, ở quy mô lớn.

Sự kiện này diễn ra trong bối cảnh Microsoft công bố đã trao thưởng kỷ lục 17 triệu USD cho 344 nhà nghiên cứu bảo mật từ 59 quốc gia thông qua chương trình săn lỗi bảo mật (vulnerability bounty) trong năm 2024. Tổng cộng đã có 1.469 báo cáo lỗ hổng hợp lệ được gửi từ tháng 7/2024 đến tháng 6/2025, với mức thưởng cao nhất lên tới 200.000 USD. Năm ngoái, con số này là 16,6 triệu USD cho 343 nhà nghiên cứu từ 55 quốc gia.

Chúng tôi, các chuyên gia về cyber security luôn sẵn sàng đồng hành cùng doanh nghiệp bạn

Chúng tôi tập trung vào các giải pháp Chống mã độc, đặc biệt là dòng mã độc mã hóa dữ liệu tống tiền và giải pháp Chống thất thoát dữ liệu (DLP).

Liên hệ ngay