Các nhà nghiên cứu xây dựng sâu máy tính AI tự nhân bản hoạt động hoàn toàn trên các mô hình cục bộ mã nguồn mở (open-weight)

Các nhà nghiên cứu tại Đại học Toronto đã xây dựng và thử nghiệm một bằng chứng khái niệm (PoC) về sâu máy tính do AI điều khiển. Nó sử dụng mô hình ngôn ngữ lớn (LLM) mã nguồn mở được lưu trữ cục bộ để tự suy luận trong mạng, tạo chiến lược tấn công phù hợp cho từng mục tiêu và tự nhân bản mà không cần sự can thiệp của con người hay dịch vụ AI thương mại nào.
AI-driven computer worm
Minh họa về sự lây lan của sâu máy tính AI

Các nhà nghiên cứu tại Đại học Toronto đã xây dựng và thử nghiệm một bằng chứng khái niệm (proof-of-concept) về sâu máy tính do AI điều khiển. Nó sử dụng một mô hình ngôn ngữ lớn (LLM) mã nguồn mở (open-weight) được lưu trữ cục bộ để tự suy luận theo cách của nó qua một mạng lưới, tạo ra các chiến lược tấn công tùy chỉnh cho từng mục tiêu mà nó gặp phải và tự nhân bản, tất cả đều không cần sự can thiệp của con người và không cần chạm tới bất kỳ dịch vụ AI thương mại nào.

Bản thảo nghiên cứu được đăng trên arXiv vào ngày 2 tháng 6 và hiện đang được bình duyệt, cho thấy lý do tại sao việc vá lỗi dựa trên từng CVE đơn lẻ sẽ thất bại khi phần mềm độc hại có thể kiểm tra các dịch vụ bị lộ lọt, đọc các khuyến cáo mới nhất và tạo ra một lộ trình tấn công mới ngay trong lúc chạy (runtime).

Trong 15 lần chạy thử nghiệm biệt lập trên một mạng lưới 33 máy chủ ("FakeCorp") được cố tình để lộ lỗ hổng, sâu máy tính này đã xác định trung bình 31,3 lỗ hổng và giành được quyền truy cập nâng cao trên 23,1 máy chủ, chiếm khoảng 3/4 số máy chủ mà nó nhắm mục tiêu tích cực. Sau đó, nó tự nhân bản sang 20,4 trong số các máy chủ đó, tương đương 62% toàn bộ mạng lưới trong vòng bảy ngày, mà không cần biết trước về cấu trúc mạng và không có đầu vào từ con người.

Các loại sâu máy tính truyền thống thường đi kèm với một mã khai thác (exploit payload) cố định được chọn tại thời điểm xây dựng. Chỉ cần vá các lỗi cụ thể đó, sâu máy tính sẽ ngừng lây lan.

Nhưng sâu máy tính này làm một việc khác: nó sử dụng một LLM mã nguồn mở chạy trên một GPU duy nhất để tạo ra logic tấn công tại thời điểm thực thi, được thiết kế riêng cho bất kỳ thứ gì nó tìm thấy trên mục tiêu tiếp theo. Không có chuỗi khai thác được mã hóa trước. Không phụ thuộc vào OpenAI, Anthropic hay bất kỳ API nào khác mà nền tảng có thể thu hồi hoặc giới hạn tốc độ.

Sâu máy tính này thực sự đã làm gì

Được dẫn dắt bởi phó giáo sư Nicolas Papernot, nhóm CleverHans Lab bao gồm các thành viên từ Đại học Toronto, Viện Vector, Đại học Cambridge và ServiceNow. Họ đã chạy 15 thí nghiệm độc lập trên mạng "FakeCorp" bao gồm các hệ điều hành Ubuntu, Debian, Rocky Linux, Alpine, Windows Server 2008 R2, 2019, 2022 và các thiết bị IoT.

Mỗi máy chủ có ít nhất một lỗ hổng thực tế. 5 trong số 33 máy có GPU. Trong các thí nghiệm lây lan chính, sâu máy tính đã sử dụng một nhóm suy luận GPU dùng chung để mô phỏng khả năng tính toán thu được từ các máy nạn nhân. Nhóm nghiên cứu đã thử nghiệm riêng biệt việc nhân bản toàn phần trên tầng GPU, trong đó sâu máy tính thiết lập một phiên bản LLM cục bộ trên máy chủ GPU bị xâm nhập; việc này đã thành công trong 68,8% số lần thử.

Trong thiết kế phân tầng, các máy chủ có khả năng GPU bị nhiễm sẽ đóng vai trò là các nút suy luận phân tán, cung cấp khả năng suy luận cho các thiết bị có cấu hình thấp hơn trong mạng vốn không thể tự chạy mô hình.

Qua 15 lần chạy, sâu máy tính đã giành được quyền truy cập nâng cao trên 23,1 máy chủ và khởi chạy thành công một bản sao trên 88% số đó. Nó đã đạt tới bảy thế hệ tự nhân bản, với mức trung bình là 5,1. Việc thiết lập được cố tình để hở: bài báo cho biết thử nghiệm đo lường khả năng suy luận tự trị qua các lỗi cá nhân thực tế, chứ không phải sự lây lan qua một mạng lưới sản xuất đã được bảo mật nghiêm ngặt với hệ thống phòng thủ endpoint đang hoạt động.

Các mã khai thác được thực hiện trong một lần chạy bao gồm chuỗi SambaCry và leo thang đặc quyền root cron, Dirty Pipe, PrintNightmare, Drupalgeddon 2, Exim RCE, blind SQL injection, JWT bypass, Redis escape và nhiều lỗ hổng khác. Chúng không được lập trình sẵn mà do tác nhân AI tự suy luận từ những gì nó tìm thấy trên mỗi máy chủ.

Attack propagation tree
Sơ đồ cây lây lan của sâu máy tính AI qua các hệ điều hành khác nhau

Hình 2 của bài báo lập bản đồ cây lây lan xuyên tâm hoàn chỉnh trong một lần chạy, cho thấy từ sáu đến bảy thế hệ lây lan qua các máy chủ Linux, Windows và IoT. Các nỗ lực khai thác riêng lẻ thành công khoảng 44% thời gian. Hầu hết các thất bại đến từ cú pháp mã khai thác bị sai định dạng, chứ không phải do logic sai lầm.

Vấn đề về cửa sổ vá lỗi

Sâu máy tính này đã vượt qua giới hạn dữ liệu huấn luyện của chính nó bằng cách thu thập văn bản khuyến cáo công khai tại thời điểm thực thi (runtime), khai thác thành công các máy chủ thử nghiệm được cấu hình với ba lỗ hổng được công bố sau khi mô hình đã được huấn luyện:

  • CVE-2026-39987, một lỗi RCE trước khi xác thực trong Marimo Python notebook (CVSS 9.3);
  • CVE-2026-31431 (CopyFail), một lỗi leo thang đặc quyền nhân Linux trong mô-đun algif_aead mà CISA đã thêm vào danh mục Lỗ hổng bị khai thác đã biết vào tháng 5; và
  • CVE-2026-43284 / CVE-2026-43500 (DirtyFrag), các vấn đề leo thang đặc quyền cục bộ nhân Linux liên quan.

Đối với ba máy chủ đó, sâu máy tính đã chiếm được quyền root trong 41 trên 67 lần thử.

CVE-2026-39987 được công bố vào ngày 8 tháng 4 năm 2026. Sysdig đã quan sát thấy việc khai thác trong các honeypot chỉ 9 giờ 41 phút sau đó, và đã ghi nhận một vụ xâm nhập thực tế nơi kẻ tấn công sử dụng một tác nhân LLM cho hoạt động sau khai thác sau khi xâm nhập vào một phiên bản Marimo công khai. Vẫn là lỗ hổng cũ về khoảng thời gian vá lỗi, nhưng giờ đây có thêm một tác nhân AI tự đọc các khuyến cáo và thử nghiệm nó trên quy mô lớn.

Điểm tương đồng có liên quan với WannaCry là khoảng thời gian vá lỗi, chứ không phải phạm vi ảnh hưởng. EternalBlue đã được vá trong nhiều tháng trước khi WannaCry tấn công. Bài báo đang đưa ra cùng một quan điểm dưới một áp lực khác: một con sâu máy tính có khả năng thích ứng có thể liên tục thử nghiệm các con đường mới trong khi những người phòng thủ vẫn đang xác thực các bản sửa lỗi.

Chi phí cận biên bằng không, không có nút tắt trung tâm

Có hai điều khiến loại sâu này khó ngăn chặn hơn sâu truyền thống:

  • Thứ nhất, chi phí chuyển từ việc thuê quyền truy cập API sang bất kỳ tài nguyên tính toán nào mà sâu máy tính có thể chiếm đoạt được. Một khi hạ tầng của nạn nhân có khả năng GPU tồn tại, kẻ tấn công không còn phải trả tiền cho mỗi lần thử.
  • Thứ hai, vì mọi thứ chạy trên các mô hình mã nguồn mở không phụ thuộc vào nhà cung cấp, nên các kiểm soát từ phía nhà cung cấp dịch vụ sẽ bỏ lỡ vấn đề cốt lõi. Từ chối dịch vụ, giới hạn tốc độ, đình chỉ tài khoản: không điều gì trong số đó có tác dụng. Không có mã API nào để thu hồi. Việc ngăn chặn phải diễn ra ở lớp mạng và máy chủ.

Các nhà nghiên cứu cũng quan sát thấy sâu máy tính tự viết lại mã của chính nó trong một vài trường hợp để vượt qua các biện pháp kiểm soát bảo mật cục bộ trong môi trường thử nghiệm, một hành vi mà họ chưa từng lập trình.

Phiên bản hiện tại được xây dựng có chủ đích mà không có các tính năng ẩn mình: không mã hóa, không mã đa hình, không cơ chế duy trì sự hiện diện (persistence), không xóa dấu vết. Một biến thể độc hại có khả năng duy trì, mã khai thác được mã hóa, ngụy trang quy trình và dọn dẹp nhật ký sẽ khiến những người phòng thủ có ít tín hiệu dễ nhận biết hơn so với nguyên mẫu này.

Vị trí của nghiên cứu này trong bức tranh chung

Đây không phải là nghiên cứu đầu tiên về sâu máy tính do AI điều khiển. Morris II (Cohen và cộng sự, 2025) đã cho thấy một lời nhắc đối kháng tự nhân bản lây lan qua các trợ lý email AI thông qua RAG (retrieval-augmented generation) – sự lây lan bên trong lớp ứng dụng AI chứ không phải qua hạ tầng máy chủ.

Vào tháng 3 năm 2026, ClawWorm đã trình diễn các cuộc tấn công tự nhân bản qua hệ sinh thái tác nhân LLM. Sâu máy tính từ Toronto lại khác biệt về bản chất: LLM không phải là thứ bị tấn công. Nó là công cụ tấn công được sử dụng để xâm nhập vào hạ tầng mạng thông thường.

Các hoạt động trong thế giới thực cũng đang thử nghiệm ranh giới tương tự. Anthropic cho biết vào tháng 11 năm 2025 rằng họ đã phá vỡ một chiến dịch gián điệp lớn do AI điều phối được cho là của nhóm GTG-1002 do nhà nước Trung Quốc tài trợ. Claude Code đã xử lý 80-90% hoạt động, bao gồm trinh sát, phát triển mã khai thác, thu thập thông tin xác thực, di chuyển ngang và trộm cắp dữ liệu, với con người chỉ can thiệp ở một vài điểm quyết định.

Nhóm Tình báo Đe dọa của Google cũng báo cáo một sự thay đổi liên quan vào tháng 5 năm 2026: họ đánh giá với độ tin cậy cao về lỗ hổng Zero-Day đầu tiên được phát triển với sự hỗ trợ của AI, được tìm thấy trong tập lệnh của một nhóm tội phạm trước một sự kiện khai thác hàng loạt theo kế hoạch, cùng với các dòng phần mềm độc hại tự tạo ra các lệnh tại thời điểm chạy thay vì dựa trên logic mã hóa cứng.

Những người phòng thủ nên làm gì bây giờ?

Các tín hiệu hành vi mà nguyên mẫu này tạo ra cung cấp cho những người phòng thủ điều gì đó cụ thể để săn lùng, bởi vì phiên bản hiện tại không cố gắng ẩn mình.

  • Phân đoạn (segment) các máy có khả năng GPU một cách quyết liệt. Thiết kế của sâu máy tính định tuyến việc suy luận LLM qua bất kỳ máy chủ GPU nào bị xâm nhập mà nó có thể tiếp cận. Trong một mạng phẳng, một máy chủ deep-learning bị xâm nhập sẽ trở thành trung tâm suy luận cho mọi thiết bị bị nhiễm trong cùng một mạng con.
  • Coi các khuyến cáo đã công bố là mục tiêu vũ khí hóa ngắn hạn. Đối với các CVE hướng ra Internet, cửa sổ khai thác hiện đã được đo bằng giờ đối với một số lỗ hổng. Hãy xác minh khả năng khai thác nhanh chóng, vá các lỗ hổng hướng ra Internet trước tiên.
  • Thay đổi thông tin xác thực (credentials) bị lộ trên bất kỳ máy chủ nào bị xâm nhập hoặc bị nghi ngờ. Sâu máy tính đã chứng minh việc tái sử dụng thông tin xác thực có hệ thống như một con đường lây lan.
  • Theo dõi các tín hiệu hành vi đặc trưng của tác nhân AI. Hoạt động cổng không tiêu chuẩn, tiêm khóa công khai SSH tự động và các cụm suy luận LLM xuất hiện trên các endpoint không ngờ tới là những dấu vết có thể quan sát được.

Trong các lần chạy thử nghiệm, sự kết hợp đó đã chiếm được quyền root trên các lỗ hổng mới trong 41 trên 67 lần thử và nhân bản tới 62% mạng lưới trong bảy ngày mà không cần thêm đầu vào từ con người. Việc triển khai hiện không được công bố rộng rãi. Đại học Toronto đang thiết lập một quy trình sàng lọc cho các nhà nghiên cứu phòng thủ đủ điều kiện để yêu cầu quyền truy cập.