Công ty trí tuệ nhân tạo (AI) Anthropic tiết lộ rằng mô hình ngôn ngữ lớn (LLM) mới nhất của họ, Claude Opus 4.6, đã phát hiện hơn 500 lỗ hổng bảo mật nghiêm trọng chưa từng được biết đến trước đây trong các thư viện mã nguồn mở, bao gồm Ghostscript, OpenSC và CGIF.
Claude Opus 4.6, được ra mắt vào thứ Năm, đi kèm với các kỹ năng lập trình được cải thiện, bao gồm khả năng code review và debugging, cùng với những cải tiến trong các tác vụ như phân tích tài chính, nghiên cứu và tạo tài liệu.
Anthropic cho biết mô hình này "tốt hơn đáng kể" trong việc phát hiện các lỗ hổng bảo mật nghiêm trọng mà không yêu cầu bất kỳ công cụ chuyên dụng, cấu trúc tùy chỉnh hoặc nhắc nhở đặc biệt nào, và đang đưa nó vào sử dụng để tìm và giúp khắc phục các lỗ hổng trong phần mềm mã nguồn mở.
"Opus 4.6 đọc và suy luận về code theo cách mà một nhà nghiên cứu con người sẽ làm – xem xét các bản sửa lỗi trước đây để tìm các lỗi tương tự chưa được giải quyết, phát hiện các mẫu có xu hướng gây ra vấn đề hoặc hiểu một phần logic đủ để biết chính xác đầu vào nào sẽ làm hỏng nó," công ty nói thêm.
Trước khi ra mắt, Frontier Red Team của Anthropic đã thử nghiệm mô hình trong môi trường ảo hóa và cung cấp cho nó các công cụ cần thiết, như debuggers và fuzzers, để tìm lỗi trong các dự án mã nguồn mở. Ý tưởng là đánh giá khả năng "out-of-the-box" của mô hình mà không cần cung cấp bất kỳ hướng dẫn nào về cách sử dụng các công cụ này hoặc thông tin có thể giúp nó gắn cờ các lỗ hổng tốt hơn.
Công ty cũng cho biết đã xác thực mọi lỗi được phát hiện để đảm bảo rằng chúng không bị tạo ra (tức là hallucinated), và LLM đã được sử dụng như một công cụ để ưu tiên các lỗ hổng memory corruption nghiêm trọng nhất được xác định.
Một số lỗi bảo mật được Claude Opus 4.6 gắn cờ được liệt kê dưới đây. Chúng đã được các nhà bảo trì tương ứng vá lỗi.
- Phân tích lịch sử Git commit để xác định lỗ hổng trong Ghostscript có thể gây ra sự cố bằng cách tận dụng việc thiếu kiểm tra giới hạn (bounds check).
- Tìm kiếm các lời gọi hàm như strrchr() và strcat() để xác định lỗ hổng buffer overflow trong OpenSC.
- Lỗ hổng heap buffer overflow trong CGIF (Đã được khắc phục trong phiên bản 0.5.1).
Về lỗi CGIF, Anthropic cho biết: "Lỗ hổng này đặc biệt thú vị vì việc kích hoạt nó đòi hỏi sự hiểu biết khái niệm về thuật toán LZW và cách nó liên quan đến định dạng tệp GIF. Các fuzzers truyền thống (và thậm chí cả coverage-guided fuzzers) gặp khó khăn trong việc kích hoạt các lỗ hổng có bản chất này vì chúng yêu cầu đưa ra một lựa chọn nhánh cụ thể."
Công ty nói thêm: "Trên thực tế, ngay cả khi CGIF có 100% line- và branch-coverage, lỗ hổng này vẫn có thể không bị phát hiện: nó yêu cầu một chuỗi hoạt động rất cụ thể."
Công ty đã quảng bá các mô hình AI như Claude như một công cụ quan trọng để những người bảo vệ "cân bằng sân chơi". Nhưng Anthropic cũng nhấn mạnh rằng họ sẽ điều chỉnh và cập nhật các biện pháp bảo vệ khi các mối đe dọa tiềm ẩn được phát hiện và sẽ đặt ra các rào chắn bổ sung để ngăn chặn việc lạm dụng.
Tiết lộ này được đưa ra vài tuần sau khi Anthropic cho biết các mô hình Claude hiện tại của họ có thể thành công trong các cuộc tấn công nhiều giai đoạn vào các mạng với hàng chục máy chủ chỉ bằng cách sử dụng các công cụ mã nguồn mở tiêu chuẩn, thông qua việc tìm kiếm và exploit các lỗ hổng bảo mật đã biết.