Các Lỗ hổng trong AI Agent OpenClaw Có thể Kích hoạt Prompt Injection và Rò rỉ Dữ liệu

Đội ngũ Ứng phó Khẩn cấp Kỹ thuật Mạng Máy tính Quốc gia Trung Quốc (CNCERT) đã đưa ra cảnh báo về các vấn đề bảo mật phát sinh từ việc sử dụng OpenClaw (trước đây là Clawdbot và Moltbot), một tác nhân trí tuệ nhân tạo (AI) tự chủ, mã nguồn mở và tự lưu trữ. Trong một bài đăng trên WeChat, CNCERT lưu ý rằng "các cấu hình bảo mật mặc định vốn yếu kém" của nền tảng này, cùng với quyền truy cập đặc quyền vào hệ thống để tạo điều kiện thực thi các tác vụ tự động, có thể bị các tác nhân độc hại khai thác để chiếm quyền kiểm soát thiết bị đầu cuối.

Minh họa tác nhân AI OpenClaw với các lỗ hổng bảo mật.

Trong một bài đăng được chia sẻ trên WeChat, CNCERT lưu ý rằng "các cấu hình bảo mật mặc định vốn yếu kém" của nền tảng, cùng với quyền truy cập đặc quyền vào hệ thống để tạo điều kiện thực thi các tác vụ tự động, có thể bị các bad actors khai thác để chiếm quyền kiểm soát endpoint.

Điều này bao gồm các rủi ro phát sinh từ prompt injections, nơi các hướng dẫn độc hại được nhúng trong một trang web có thể khiến agent rò rỉ sensitive information nếu nó bị lừa truy cập và tiêu thụ nội dung đó.

Cuộc tấn công này còn được gọi là indirect prompt injection (IDPI) hoặc cross-domain prompt injection (XPIA), vì các adversaries, thay vì tương tác trực tiếp với large language model (LLM), sẽ vũ khí hóa các tính năng AI lành tính như tóm tắt trang web hoặc phân tích nội dung để thực hiện các hướng dẫn bị thao túng. Điều này có thể bao gồm việc lách các hệ thống đánh giá quảng cáo dựa trên AI, ảnh hưởng đến quyết định tuyển dụng, search engine optimization (SEO) poisoning và tạo ra các phản hồi thiên vị bằng cách ngăn chặn các đánh giá tiêu cực.

OpenAI, trong một bài đăng trên blog được công bố vào đầu tuần này, cho biết các cuộc tấn công theo kiểu prompt injection đang phát triển vượt ra ngoài việc chỉ đặt hướng dẫn vào external content để bao gồm các yếu tố của social engineering.

"AI agents ngày càng có khả năng duyệt web, retrieve information và take actions on a user's behalf," OpenAI cho biết. "Những khả năng đó rất hữu ích, nhưng chúng cũng tạo ra những cách thức mới để attackers cố gắng thao túng hệ thống."

Các rủi ro prompt injection trong OpenClaw không chỉ là lý thuyết. Tháng trước, các nhà nghiên cứu tại PromptArmor đã phát hiện ra rằng tính năng link preview trong các ứng dụng nhắn tin như Telegram hoặc Discord có thể được biến thành một data exfiltration pathway khi giao tiếp với OpenClaw bằng cách sử dụng một indirect prompt injection.

Ý tưởng, ở mức độ cao, là lừa AI agent tạo ra một URL do attacker kiểm soát mà khi được hiển thị trong ứng dụng nhắn tin dưới dạng link preview, sẽ tự động khiến nó truyền confidential data đến domain đó mà không cần phải nhấp vào liên kết.

"Điều này có nghĩa là trong các agentic systems với link previews, data exfiltration có thể xảy ra ngay lập tức khi AI agent phản hồi người dùng, mà người dùng không cần nhấp vào malicious link," công ty AI security cho biết. "Trong cuộc tấn công này, agent bị thao túng để construct một URL sử dụng attacker's domain, với dynamically generated query parameters appended chứa sensitive data mà model biết về người dùng."

Sơ đồ minh họa cuộc tấn công rò rỉ dữ liệu thông qua link preview.

Ngoài các rogue prompts, CNCERT cũng đã nêu bật ba mối lo ngại khác:

Khả năng OpenClaw có thể vô tình và không thể phục hồi xóa critical information do hiểu sai instructions của người dùng.
Threat actors có thể tải lên các malicious skills lên các repositories như ClawHub mà khi cài đặt, sẽ chạy các arbitrary commands hoặc triển khai malware.
Attackers có thể exploit các security vulnerabilities được tiết lộ gần đây trong OpenClaw để compromise hệ thống và rò rỉ sensitive data.

"Đối với các critical sectors – như finance và energy – những breaches như vậy có thể dẫn đến rò rỉ core business data, trade secrets và code repositories, hoặc thậm chí dẫn đến complete paralysis của toàn bộ business systems, gây ra incalculable losses," CNCERT nói thêm.

Để chống lại những rủi ro này, người dùng và tổ chức được khuyến cáo tăng cường network controls, ngăn chặn việc exposure của cổng quản lý mặc định của OpenClaw ra internet, isolate dịch vụ trong một container, tránh lưu trữ credentials dưới dạng plaintext, chỉ tải xuống skills từ các trusted channels, disable automatic updates cho skills và giữ agent được up-to-date.

Sự phát triển này diễn ra khi chính quyền Trung Quốc đã hạn chế các state-run enterprises và government agencies chạy các ứng dụng AI của OpenClaw trên office computers nhằm contain security risks, Bloomberg đưa tin. Lệnh cấm cũng được cho là áp dụng cho gia đình của military personnel.

Sự phổ biến rộng rãi của OpenClaw cũng đã khiến các threat actors tận dụng hiện tượng này để phân phối các malicious GitHub repositories posing as OpenClaw installers nhằm triển khai các information stealers như Atomic và Vidar Stealer, cùng với một Golang-based proxy malware được gọi là GhostSocks sử dụng hướng dẫn theo kiểu ClickFix.

"Chiến dịch này không nhắm vào một particular industry, nhưng nhắm mục tiêu rộng rãi đến những người dùng cố gắng cài đặt OpenClaw với các malicious repositories chứa download instructions cho cả môi trường Windows và macOS," Huntress cho biết. "Điều khiến điều này thành công là malware được lưu trữ trên GitHub, và malicious repository đã trở thành đề xuất được xếp hạng hàng đầu trong kết quả tìm kiếm AI của Bing cho OpenClaw Windows."