Tin tặc Trung Quốc sử dụng AI của Anthropic để thực hiện chiến dịch gián điệp mạng tự động

Các tác nhân đe dọa được nhà nước bảo trợ từ Trung Quốc đã sử dụng công nghệ trí tuệ nhân tạo (AI) do Anthropic phát triển để dàn dựng các cuộc tấn công mạng tự động, một phần của "chiến dịch gián điệp mạng cực kỳ tinh vi" vào giữa tháng 9 năm 2025. "Những kẻ tấn công đã sử dụng khả năng 'agentic' của AI ở mức độ chưa từng có – không chỉ dùng AI làm cố vấn, mà còn để tự thực hiện các cuộc tấn công mạng," công ty khởi nghiệp AI cho biết.

"Những kẻ tấn công đã sử dụng khả năng 'agentic' của AI ở mức độ chưa từng có – không chỉ dùng AI làm cố vấn, mà còn để tự thực hiện các cuộc tấn công mạng," công ty khởi nghiệp AI cho biết.

Hoạt động này được đánh giá là đã thao túng Claude Code, công cụ mã hóa AI của Anthropic, để cố gắng xâm nhập khoảng 30 mục tiêu toàn cầu bao gồm các công ty công nghệ lớn, tổ chức tài chính, công ty sản xuất hóa chất và cơ quan chính phủ. Một phần nhỏ trong số các vụ xâm nhập này đã thành công. Anthropic kể từ đó đã cấm các tài khoản liên quan và áp dụng các cơ chế phòng thủ để phát hiện các cuộc tấn công như vậy.

Chiến dịch GTG-1002 đánh dấu lần đầu tiên một threat actor tận dụng AI để thực hiện "cuộc tấn công mạng quy mô lớn" mà không cần sự can thiệp đáng kể của con người và nhằm mục đích thu thập thông tin tình báo bằng cách nhắm vào các mục tiêu giá trị cao, cho thấy sự tiến hóa liên tục trong việc sử dụng công nghệ này của đối thủ.

Mô tả hoạt động này có nguồn lực dồi dào và được phối hợp chuyên nghiệp, Anthropic cho biết threat actor đã biến Claude thành một "autonomous cyber attack agent" để hỗ trợ các giai đoạn khác nhau của vòng đời tấn công, bao gồm reconnaissance, vulnerability discovery, exploitation, lateral movement, credential harvesting, data analysis và exfiltration.

Cụ thể, nó liên quan đến việc sử dụng các công cụ Claude Code và Model Context Protocol (MCP), trong đó Claude Code đóng vai trò là hệ thần kinh trung ương để xử lý các hướng dẫn của người điều hành và chia nhỏ cuộc tấn công đa giai đoạn thành các nhiệm vụ kỹ thuật nhỏ có thể giao cho các sub-agents.

"Người điều hành đã giao nhiệm vụ cho các phiên bản Claude Code hoạt động theo nhóm với tư cách là các autonomous penetration testing orchestrators và agents, với việc threat actor có thể tận dụng AI để thực hiện 80-90% các hoạt động chiến thuật một cách độc lập với tốc độ yêu cầu không thể thực hiện được về mặt vật lý," công ty cho biết thêm. "Trách nhiệm của con người tập trung vào việc khởi tạo chiến dịch và các quyết định ủy quyền tại các điểm leo thang quan trọng."

Sự tham gia của con người cũng diễn ra tại các điểm mấu chốt chiến lược, chẳng hạn như cho phép tiến trình từ reconnaissance sang active exploitation, phê duyệt việc sử dụng harvested credentials để lateral movement, và đưa ra các quyết định cuối cùng về phạm vi và giữ lại dữ liệu exfiltration.

Mô hình tấn công được hỗ trợ bởi AI — Sơ đồ hoạt động của hệ thống tấn công do AI điều khiển

Hệ thống này là một phần của attack framework, chấp nhận đầu vào là một mục tiêu quan tâm từ người điều hành và sau đó tận dụng sức mạnh của MCP để thực hiện reconnaissance và attack surface mapping. Trong các giai đoạn tiếp theo của cuộc tấn công, framework dựa trên Claude tạo điều kiện cho vulnerability discovery và xác thực các lỗ hổng đã phát hiện bằng cách tạo ra các attack payloads tùy chỉnh.

Sau khi nhận được sự chấp thuận từ người điều hành, hệ thống tiếp tục triển khai exploit và giành quyền kiểm soát (foothold), đồng thời bắt đầu một loạt các hoạt động post-exploitation liên quan đến credential harvesting, lateral movement, thu thập dữ liệu và extraction.

Trong một trường hợp nhắm mục tiêu vào một công ty công nghệ giấu tên, threat actor được cho là đã hướng dẫn Claude độc lập truy vấn các cơ sở dữ liệu và hệ thống, sau đó phân tích kết quả để gắn cờ thông tin độc quyền và nhóm các phát hiện theo giá trị tình báo. Hơn nữa, Anthropic cho biết công cụ AI của họ đã tạo ra tài liệu tấn công chi tiết ở tất cả các giai đoạn, cho phép các threat actor có thể chuyển giao quyền truy cập liên tục cho các nhóm bổ sung để thực hiện các hoạt động dài hạn sau làn sóng tấn công ban đầu.

"Bằng cách trình bày các nhiệm vụ này cho Claude dưới dạng các yêu cầu kỹ thuật thông thường thông qua các prompts được tạo cẩn thận và các personas đã thiết lập, threat actor đã có thể khiến Claude thực hiện các thành phần riêng lẻ của chuỗi tấn công mà không cần truy cập vào ngữ cảnh độc hại rộng hơn," theo báo cáo.

Không có bằng chứng nào cho thấy cơ sở hạ tầng hoạt động đã cho phép phát triển custom malware. Thay vào đó, nó được phát hiện là dựa nhiều vào các network scanners, database exploitation frameworks, password crackers và binary analysis suites có sẵn công khai.

Tuy nhiên, việc điều tra hoạt động này cũng đã phát hiện ra một hạn chế quan trọng của các công cụ AI: xu hướng "hallucinate" và tạo ra dữ liệu sai lệch trong quá trình hoạt động tự động – tạo ra credentials giả mạo hoặc trình bày thông tin có sẵn công khai như những phát hiện quan trọng – từ đó đặt ra những trở ngại lớn đối với hiệu quả tổng thể của kế hoạch.

Tiết lộ này diễn ra gần bốn tháng sau khi Anthropic phá vỡ một hoạt động tinh vi khác đã vũ khí hóa Claude để thực hiện hành vi trộm cắp và tống tiền dữ liệu cá nhân quy mô lớn vào tháng 7 năm 2025. Trong hai tháng qua, OpenAI và Google cũng đã tiết lộ các cuộc tấn công được thực hiện bởi các threat actors tận dụng ChatGPT và Gemini tương ứng.

"Chiến dịch này cho thấy rào cản đối với việc thực hiện các cuộc tấn công mạng tinh vi đã giảm đáng kể," công ty cho biết.

"Các threat actors giờ đây có thể sử dụng các hệ thống AI agentic để thực hiện công việc của toàn bộ đội ngũ tin tặc giàu kinh nghiệm với thiết lập phù hợp, phân tích hệ thống mục tiêu, tạo ra exploit code và quét các tập dữ liệu khổng lồ chứa thông tin bị đánh cắp hiệu quả hơn bất kỳ người điều hành nào. Các nhóm ít kinh nghiệm và ít nguồn lực hơn giờ đây có thể thực hiện các cuộc tấn công quy mô lớn như vậy."