Anthropic cho biết vào thứ Sáu rằng họ sẽ "ngay lập tức vô hiệu hóa" các mô hình trí tuệ nhân tạo (AI) tiên tiến nhất của mình, Claude Fable 5 và Mythos 5, đối với tất cả người dùng sau khi chính phủ Hoa Kỳ yêu cầu đình chỉ quyền truy cập các mô hình này đối với công dân nước ngoài, dù ở trong hay ngoài nước Mỹ, với lý do lo ngại về an ninh quốc gia.
Công ty AI này cho biết họ đã nhận được lệnh vào lúc 5:21 chiều (giờ ET), hướng dẫn đình chỉ toàn bộ quyền truy cập vào các mô hình này bởi công dân nước ngoài. Anthropic tin rằng đã có một sự "hiểu lầm" và đang nỗ lực khôi phục quyền truy cập sớm nhất có thể. Quyền truy cập vào các mô hình khác sẽ không bị ảnh hưởng bởi chỉ thị kiểm soát xuất khẩu này.
"Theo hiểu biết của chúng tôi, chính phủ tin rằng họ đã nhận thấy một phương pháp vượt qua rào cản, hoặc 'jailbreak' Fable 5," công ty cho biết.
"Chúng tôi đã xem xét bản demo của kỹ thuật cụ thể này được sử dụng để xác định một số lượng nhỏ các vulnerabilities nhỏ đã biết trước đó. Những vulnerabilities này đều có vẻ tương đối đơn giản và chúng tôi thấy rằng các mô hình công khai khác cũng có khả năng phát hiện ra chúng mà không cần thực hiện bypass."
Lo ngại về khả năng an ninh mạng của Claude Fable 5 và Mythos 5
Động thái bất ngờ này diễn ra chỉ vài ngày sau khi ra mắt Claude Fable 5 và phiên bản song hành Mythos 5 – vốn sử dụng cùng một mô hình nền tảng nhưng được dỡ bỏ các rào cản bảo vệ trong một số lĩnh vực như cybersecurity. Mythos 5, được mô tả là có "khả năng cybersecurity mạnh mẽ nhất so với bất kỳ mô hình nào trên thế giới," hiện vẫn có thể truy cập được bởi một nhóm các chuyên gia phòng thủ mạng và các nhà vận hành hạ tầng trọng yếu đã qua kiểm duyệt.
Anthropic nhấn mạnh rằng họ đã triển khai các rào cản "mạnh mẽ" để ngăn chặn việc lạm dụng các mô hình cho các nhiệm vụ liên quan đến cybersecurity. Cụ thể, điều này được củng cố bởi một bộ phân loại an toàn (safety classifiers) được sử dụng để phát hiện khả năng lạm dụng, bao gồm cả các nỗ lực jailbreak, và ngăn chặn mô hình chính phản hồi.
Bộ phân loại cybersecurity được thiết kế để chặn các yêu cầu đơn lẻ có hại liên quan đến việc lập kế hoạch tấn công mạng, phát triển exploit, hoặc defense evasion. Công ty lưu ý rằng các mô hình thuộc dòng Mythos rất thành thạo trong việc tìm kiếm và khai thác các software vulnerabilities, từ đó mang lại lợi thế chiến lược cho những kẻ tấn công.
Tốc độ vũ khí hóa lỗ hổng từ N-days thành N-hours
Tuần trước, Anthropic tiết lộ mô hình dòng Mythos của họ có thể biến các software vulnerabilities mới được công bố thành các exploits hoạt động được chỉ trong vài giờ, hoặc thậm chí vài phút trong một số trường hợp, thay vì vài tuần, giúp chuyển đổi N-days thành N-hours. Các phát hiện cho thấy những frontier models này có thể nhanh chóng vũ khí hóa các lỗi đã được công khai.
"Một cá nhân đơn lẻ giờ đây có thể biến các bản vá của một tháng thành các exploits hoạt động chỉ trong một buổi chiều - với chi phí vài nghìn đô la và không cần chuyên môn đặc biệt," Red Team của Anthropic cho biết. "Điều này có nghĩa là quy trình vá lỗi thông thường mà các nhà phát triển phần mềm sử dụng ngày nay - với chu kỳ phát hành hàng tháng và độ trễ giữa các kênh thử nghiệm và ổn định - không còn phù hợp nữa."
Các biện pháp bảo vệ của Fable 5 có nghĩa là các truy vấn về chủ đề cybersecurity sẽ nhận được phản hồi từ Claude Opus 4.8, mô hình năng lực tiếp theo của công ty.
Tranh cãi về khả năng kháng Jailbreak
Trong tuyên bố mới nhất, công ty lập luận rằng cho đến nay chưa có phương pháp jailbreak phổ quát nào được phát triển để chống lại các mô hình mới nhất. Họ nói thêm rằng các bài kiểm tra red-teaming nội bộ và từ bên thứ ba đã cho thấy các biện pháp bảo vệ của họ "hiệu quả hơn đáng kể so với bất kỳ mô hình nào đã được triển khai trước đây."
Hơn nữa, Anthropic khẳng định rằng "khả năng kháng jailbreak hoàn hảo" là không thể đối với bất kỳ nhà cung cấp mô hình nào, vì mọi rào cản bảo vệ được sử dụng trong ngành đều có nguy cơ bị ảnh hưởng bởi các kỹ thuật jailbreak không phổ quát, vốn "hiệu quả trong các bối cảnh rất hạn chế hoặc đòi hỏi nỗ lực bổ sung để thích ứng với từng tình huống mới."
"Cho đến nay, chính phủ mới chỉ cung cấp cho chúng tôi bằng chứng bằng lời nói về một khả năng jailbreak hẹp, không phổ quát, về cơ bản bao gồm việc yêu cầu mô hình đọc một codebase cụ thể và sửa bất kỳ software flaws nào," công ty cho biết.
"Theo hiểu biết của chúng tôi, một khả năng jailbreak tiềm năng đã được chia sẻ với chính phủ. Chúng tôi đã xem xét một báo cáo mà chúng tôi tin là cơ sở cho chỉ thị của chính phủ và xác nhận rằng mức độ khả năng được hiển thị ở đó đã có sẵn rộng rãi từ các mô hình khác (bao gồm cả GPT-5.5 của OpenAI), và đang được sử dụng hàng ngày bởi những người phòng thủ để giữ an toàn cho các hệ thống."
Anthropic cũng chỉ ra rằng mặc dù họ ủng hộ việc chính phủ ngăn chặn các đợt triển khai AI không an toàn, nhưng việc phát hiện ra một "jailbreak tiềm năng ở phạm vi hẹp" không nên là lý do để thu hồi một mô hình thương mại đang được triển khai rộng rãi. Quy trình theo luật định nên "minh bạch, công bằng, rõ ràng và dựa trên các thực tế kỹ thuật," công ty nói thêm.
Đầu năm nay, Bộ Quốc phòng Hoa Kỳ đã xếp loại Anthropic là một "rủi ro chuỗi cung ứng" sau khi nhà sản xuất Claude cố gắng vạch ra các ranh giới đỏ về việc sử dụng công nghệ của mình trong quân sự. Công ty đã nộp hai đơn kiện để ngăn chặn việc xếp loại này.