Anthropic khôi phục Claude Fable 5 sau khi Mỹ dỡ bỏ kiểm soát xuất khẩu do lỗi Jailbreak

Anthropic đưa Claude Fable 5 hoạt động trở lại toàn cầu từ ngày 1/7 sau khi Bộ Thương mại Mỹ dỡ bỏ lệnh kiểm soát xuất khẩu áp đặt do lo ngại về các kỹ thuật jailbreak có thể tiết lộ lỗ hổng phần mềm. Fable 5 sẽ có mặt trên Claude.ai, Claude Platform, Claude Code và Claude Cowork. Trước đó, lệnh cấm đã buộc Anthropic phải tạm dừng dịch vụ do không thể xác minh quốc tịch người dùng trong thời gian thực.

Anthropic đang đưa Claude Fable 5 hoạt động trở lại trên toàn thế giới. Vào ngày 30 tháng 6, Bộ Thương mại Hoa Kỳ đã dỡ bỏ các biện pháp kiểm soát xuất khẩu mà họ đã áp đặt đối với Fable và phiên bản anh em bị kiểm soát chặt chẽ hơn là Mythos 5 khoảng hai tuần rưỡi trước đó.

Fable 5 chính thức quay trở lại với người dùng vào Thứ Tư, ngày 1 tháng 7, thông qua Claude.ai, Claude Platform, Claude Code và Claude Cowork.

Kiểm soát xuất khẩu là biện pháp hạn chế những ai có thể nhận hoặc sử dụng một công nghệ nhất định. Lệnh cấm ngày 12 tháng 6 đã yêu cầu Anthropic cắt quyền truy cập cả hai mô hình này đối với bất kỳ công dân nước ngoài nào, dù ở trong hay ngoài Hoa Kỳ, bao gồm cả các nhân viên không phải công dân Mỹ của chính công ty.

Quy định này có hiệu lực ngay lập tức, và do công ty không có cách nào đáng tin cậy để kiểm tra quốc tịch của mọi người dùng trong thời gian thực, họ đã phải đóng cửa cả hai mô hình đối với tất cả mọi người.

Nguyên nhân từ lỗi Jailbreak

Tác nhân kích hoạt lệnh cấm này là một kỹ thuật jailbreak: một loại prompt có thể khiến mô hình AI vượt qua các quy tắc an toàn của chính nó. Các nghiên cứu viên của Amazon đã tìm thấy một lỗi như vậy trong Fable 5. Theo tường thuật của Anthropic, prompt này đã khiến mô hình chỉ ra một số lỗi phần mềm và trong một trường hợp, nó đã viết mã nguồn mô phỏng cách thức một lỗ hổng có thể bị lạm dụng.

Anthropic đã giảm bớt mức độ nghiêm trọng của phát hiện này. Họ cho biết các yêu cầu tương tự cũng có thể thực hiện được trên nhiều mô hình yếu hơn, bao gồm cả Claude Opus 4.8 của chính họ, GPT-5.5 của OpenAI và Kimi K2.7 của Trung Quốc. Công ty gọi hành vi bị gắn cờ này là công việc bảo mật phòng thủ thông thường, chứ không phải là một siêu năng lực tiềm ẩn.

Tuy nhiên, chính phủ và đối tác báo cáo lỗi jailbreak lại xem đây là vấn đề đủ nghiêm trọng để áp dụng các biện pháp kiểm soát khẩn cấp.

Giải pháp Classifier và sự trở lại của Mythos 5

Để giải quyết mối lo ngại, Anthropic đã huấn luyện một bộ lọc an toàn mới, được gọi là classifier. Bộ lọc này sẽ giám sát kỹ thuật chính xác được nêu trong báo cáo và chặn nó. Công ty cho biết hiện tại họ có thể chặn kỹ thuật này trong hơn 99% các lần thử nghiệm. Các yêu cầu bị chặn sẽ được chuyển sang mô hình Opus 4.8 yếu hơn và người dùng sẽ được thông báo. Sự đánh đổi ở đây là sẽ có nhiều cảnh báo giả hơn trong các tác vụ lập trình và gỡ lỗi thông thường.

Mythos 5, mô hình có cùng nền tảng nhưng ít rào cản an toàn hơn, vẫn bị kiểm soát chặt chẽ. Quyền truy cập đã được khôi phục vào ngày 26 tháng 6 cho khoảng 100 công ty Hoa Kỳ và các cơ quan liên bang đang bảo vệ cơ sở hạ tầng trọng yếu. Anthropic cho biết họ vẫn đang làm việc với chính phủ để mở rộng quyền truy cập.

Bộ trưởng Thương mại Howard Lutnick, người đã ký quyết định đảo ngược lệnh cấm, cho biết bộ của ông đã dành hai tuần để xem xét các mô hình cùng với Anthropic. Trong thư của mình, công ty đã đồng ý tự săn lùng các vấn đề bảo mật, phối hợp trong các lần ra mắt tương lai và báo cáo bất kỳ hành vi sử dụng độc hại nào mà họ phát hiện được.

Bối cảnh cạnh tranh và chính sách quản lý

Cuộc tranh cãi này đã diễn ra căng thẳng ngay từ đầu. Nhiều báo cáo, bao gồm cả từ The Wall Street Journal, cho biết nghiên cứu của Amazon và những lo ngại từ CEO Andy Jassy đã góp phần dẫn đến lệnh cấm ban đầu. Cựu giám đốc AI David Sacks từng cáo buộc Anthropic "ưu tiên việc cung cấp mô hình cho người tiêu dùng hơn là sự an toàn". Trong khi những người khác lại coi đó là một phản ứng quá mức.

Francesco Bailo, nhà nghiên cứu quản trị AI tại Đại học Sydney, chia sẻ với Al Jazeera rằng việc đảo ngược lệnh cấm cho thấy chính phủ dường như thừa nhận họ đã đi quá xa. Một nhóm các nhà lãnh đạo bảo mật cũng đã ký một bức thư ngỏ yêu cầu dỡ bỏ các biện pháp kiểm soát.

Bao trùm lên tất cả là vấn đề cạnh tranh. Việc tạm dừng diễn ra ngay khi các mô hình nguồn mở giá rẻ và năng lực cao của Trung Quốc đang chiếm lĩnh thị phần. Nhiều giám đốc điều hành cảnh báo rằng việc đóng băng các mô hình của Mỹ sẽ tạo cơ hội cho các đối thủ đuổi kịp.

Đề xuất khung đánh giá mức độ nguy hiểm của Jailbreak

Anthropic cũng đang đề xuất một phương pháp chung để xếp hạng mức độ nguy hiểm thực sự của một lỗi jailbreak – điều mà ngành công nghiệp này đang thiếu. Cùng với Amazon, Microsoft, Google và các đối tác khác, họ muốn chấm điểm mỗi lỗi dựa trên bốn yếu tố:

Gia tăng năng lực (Capability gain): Lỗi jailbreak đưa người dùng đi xa hơn bao nhiêu so với các công cụ họ đã có.
Phạm vi (Breadth): Một thủ thuật có thể mở ra bao nhiêu loại tấn công khác nhau.
Khả năng vũ khí hóa (Ease of weaponization): Cần bao nhiêu kỹ năng và nỗ lực để biến nó thành một cuộc tấn công thực sự.
Khả năng phát hiện (Discoverability): Thủ thuật đó dễ tìm thấy hoặc sao chép đến mức nào.

Đối với những trường hợp tồi tệ nhất, chẳng hạn như lỗi jailbreak cho phép tấn công vào lưới điện hoặc ngân hàng, Anthropic tuyên bố sẽ triển khai các bản sửa lỗi ngay khi mức độ nghiêm trọng được xác nhận, đồng thời thiết lập một đội ngũ giám sát các báo cáo jailbreak 24/7.

Công ty cũng đã mở một chương trình HackerOne để các nghiên cứu viên báo cáo các lỗi jailbreak mới trên Fable 5, và hứa với chính phủ Mỹ sẽ cho phép tiếp cận sớm hơn để thử nghiệm các mô hình tiên phong trong tương lai trước khi phát hành.

Anthropic không phải là phòng thí nghiệm duy nhất trong tình cảnh này. Vài ngày trước đó, OpenAI đã giới thiệu trước GPT-5.6 cho một nhóm nhỏ được chính phủ phê duyệt thay vì công chúng, viện dẫn cùng một nỗi lo về "tác dụng kép" (dual-use): một mô hình đủ tốt để giúp người phòng thủ vá lỗi thì cũng đủ tốt để giúp kẻ tấn công tìm ra chúng.

Rủi ro này không hề mang tính lý thuyết. Đầu mùa xuân này, Anthropic đã thử nghiệm một mô hình Mythos trước đó và nó đã tìm thấy cũng như khai thác các lỗi Zero-Day trên mọi hệ điều hành và trình duyệt lớn khi có lệnh, bao gồm cả một lỗ hổng đã 27 năm tuổi trong OpenBSD. Đội ngũ red team của họ đã biến các lỗi mới được tiết lộ thành các bản exploit hoạt động được trong chưa đầy một ngày.

Cuộc khủng hoảng trước mắt đã qua, nhưng câu hỏi lớn hơn vẫn còn đó. Một sắc lệnh hành pháp ngày 2 tháng 6 đã tạo ra một lộ trình tự nguyện để các công ty đánh giá các mô hình tiên phong trước khi phát hành. Tuy nhiên, Fable 5 chưa bao giờ đi qua lộ trình đó. Chính phủ đã sử dụng các biện pháp kiểm soát xuất khẩu thay thế, cho thấy khi Washington muốn hành động nhanh chóng đối với một mô hình AI mới, họ vẫn chưa có một quy trình mang tính ràng buộc chính thức nào mà chỉ là các biện pháp ứng biến.