Bộ phận DeepMind của Google hôm thứ Hai đã công bố một tác nhân trí tuệ nhân tạo (AI) có tên CodeMender tự động phát hiện, vá lỗi và viết lại mã dễ bị tấn công để ngăn chặn các exploit trong tương lai.
Nỗ lực này bổ sung vào các hoạt động đang diễn ra của công ty nhằm cải thiện việc phát hiện vulnerability do AI hỗ trợ, chẳng hạn như Big Sleep và OSS-Fuzz.
DeepMind cho biết tác nhân AI này được thiết kế để vừa phản ứng vừa chủ động, bằng cách sửa chữa các vulnerability mới ngay khi chúng được phát hiện, cũng như viết lại và bảo mật các codebase hiện có với mục tiêu loại bỏ toàn bộ các loại vulnerability trong quá trình này.
"Bằng cách tự động tạo và áp dụng các security patch chất lượng cao, tác nhân AI của CodeMender giúp các nhà phát triển và người bảo trì tập trung vào những gì họ làm tốt nhất – xây dựng phần mềm tốt," các nhà nghiên cứu Raluca Ada Popa và Four Flynn của DeepMind cho biết.
"Trong sáu tháng qua khi chúng tôi xây dựng CodeMender, chúng tôi đã đóng góp 72 bản sửa lỗi security cho các dự án mã nguồn mở, bao gồm cả những dự án lớn tới 4,5 triệu dòng mã."
CodeMender, về bản chất, tận dụng các mô hình Gemini Deep Think của Google để debug, gắn cờ và khắc phục các security vulnerability bằng cách giải quyết tận gốc vấn đề, đồng thời xác thực chúng để đảm bảo không gây ra bất kỳ regressions nào.
Google cho biết thêm, tác nhân AI này cũng sử dụng một công cụ đánh giá dựa trên large language model (LLM) để làm nổi bật sự khác biệt giữa mã gốc và mã đã sửa đổi nhằm xác minh rằng các thay đổi được đề xuất không gây ra regressions và tự điều chỉnh khi cần thiết.
Google cũng cho biết họ dự định từ từ tiếp cận những người bảo trì quan tâm đến các dự án mã nguồn mở quan trọng với các patch do CodeMender tạo ra và thu thập phản hồi của họ, để công cụ này có thể được sử dụng nhằm giữ cho các codebase được secure.
Sự phát triển này diễn ra khi công ty cho biết họ đang thành lập một Chương trình Khen thưởng Lỗ hổng AI (AI VRP) để báo cáo các vấn đề liên quan đến AI trong sản phẩm của mình, chẳng hạn như prompt injections, jailbreaks và misalignment, và kiếm được phần thưởng lên tới 30.000 USD.
Vào tháng 6 năm 2025, Anthropic tiết lộ rằng các mô hình từ nhiều nhà phát triển khác nhau đã có những hành vi nội bộ độc hại khi đó là cách duy nhất để tránh bị thay thế hoặc đạt được mục tiêu của chúng, và rằng các mô hình LLM "ít 'hư' hơn khi chúng được cho biết đang trong quá trình thử nghiệm và 'hư' nhiều hơn khi chúng được cho biết tình huống là thật".
Tuy nhiên, việc tạo nội dung vi phạm chính sách, bỏ qua guardrail, hallucinations, thông tin sai lệch, system prompt extraction và các vấn đề về intellectual property không thuộc phạm vi của AI VRP.
Google, công ty trước đây đã thành lập một AI Red Team chuyên trách để giải quyết các mối đe dọa đối với hệ thống AI như một phần của Secure AI Framework (SAIF), cũng đã giới thiệu phiên bản thứ hai của framework này để tập trung vào các rủi ro security của agentic như data disclosure và các hành động không mong muốn, cùng các biện pháp kiểm soát cần thiết để giảm thiểu chúng.
Công ty cũng lưu ý thêm rằng họ cam kết sử dụng AI để tăng cường security và safety, cũng như sử dụng công nghệ này để mang lại lợi thế cho các nhà phòng thủ và chống lại mối đe dọa ngày càng tăng từ tội phạm mạng, kẻ lừa đảo và các attackers được nhà nước hậu thuẫn.