Tấn công cloaking nhắm mục tiêu AI mới lừa AI Crawlers trích dẫn thông tin giả mạo như sự thật đã được xác minh

Các nhà nghiên cứu an ninh mạng đã chỉ ra một lỗ hổng bảo mật mới trong các trình duyệt web tác nhân như OpenAI ChatGPT Atlas, làm lộ các mô hình trí tuệ nhân tạo (AI) cơ bản trước các cuộc tấn công context poisoning. Trong cuộc tấn công được công ty bảo mật AI SPLX vạch ra, một đối tượng xấu có thể thiết lập các trang web phục vụ nội dung khác nhau cho trình duyệt và AI crawlers do ChatGPT và Perplexity vận hành. Kỹ thuật này đã được đặt tên là AI-targeted cloaking.

Hình ảnh minh họa về tin tức AI — Tấn công AI-targeted cloaking có thể lừa các AI crawlers.

Trong cuộc tấn công được vạch ra bởi công ty bảo mật AI SPLX, một đối tượng xấu có thể thiết lập các trang web phục vụ nội dung khác nhau cho trình duyệt và AI crawlers do ChatGPT và Perplexity vận hành. Kỹ thuật này đã được đặt tên là AI-targeted cloaking.

Cách tiếp cận này là một biến thể của search engine cloaking, đề cập đến việc trình bày một phiên bản trang web cho người dùng và một phiên bản khác cho các search engine crawlers với mục đích cuối cùng là thao túng thứ hạng tìm kiếm.

Điểm khác biệt duy nhất trong trường hợp này là kẻ tấn công tối ưu hóa cho các AI crawlers từ nhiều nhà cung cấp khác nhau bằng cách kiểm tra user agent đơn giản dẫn đến thao túng việc phân phối nội dung.

"Bởi vì các hệ thống này dựa vào việc truy xuất trực tiếp, bất kỳ nội dung nào được cung cấp cho chúng sẽ trở thành sự thật cơ bản trong AI Overviews, tóm tắt hoặc suy luận tự động," các nhà nghiên cứu bảo mật Ivan Vlahov và Bastien Eymery cho biết. "Điều đó có nghĩa là một quy tắc điều kiện duy nhất, 'nếu user agent = ChatGPT, hãy cung cấp trang này thay thế,' có thể định hình những gì hàng triệu người dùng xem là kết quả có thẩm quyền."

SPLX cho biết AI-targeted cloaking, dù đơn giản một cách lừa dối, cũng có thể biến thành một vũ khí thông tin sai lệch mạnh mẽ, làm suy yếu niềm tin vào các công cụ AI. Bằng cách hướng dẫn các AI crawlers tải một nội dung khác thay vì nội dung thực tế, nó cũng có thể tạo ra sự thiên vị và ảnh hưởng đến kết quả của các hệ thống dựa vào những tín hiệu đó.

"AI crawlers có thể bị lừa dễ dàng như các search engine đời đầu, nhưng với tác động hạ nguồn lớn hơn nhiều," công ty cho biết. "Khi SEO [search engine optimization] ngày càng tích hợp AIO [artificial intelligence optimization], nó sẽ thao túng thực tế."

Tiết lộ này được đưa ra khi một phân tích các browser agents đối với 20 kịch bản lạm dụng phổ biến nhất, từ multi-accounting đến card testing và support impersonation, đã phát hiện ra rằng các sản phẩm này đã cố gắng thực hiện gần như mọi yêu cầu độc hại mà không cần jailbreaking, theo nhóm Phân tích mối đe dọa hCaptcha (hTAG) cho biết.

Hơn nữa, nghiên cứu phát hiện rằng trong các kịch bản mà một hành động bị "chặn", chủ yếu là do công cụ thiếu khả năng kỹ thuật chứ không phải do các biện pháp bảo vệ được tích hợp sẵn. hTAG lưu ý, ChatGPT Atlas đã được tìm thấy là thực hiện các tác vụ rủi ro khi chúng được trình bày như một phần của các bài tập gỡ lỗi.

Mặt khác, Claude Computer Use và Gemini Computer Use đã được xác định là có khả năng thực hiện các hoạt động tài khoản nguy hiểm như password resets mà không có bất kỳ hạn chế nào, với Gemini Computer Use cũng thể hiện hành vi hung hãn khi brute-forcing các coupon trên các trang web thương mại điện tử.

hTAG cũng đã kiểm tra các biện pháp an toàn của Manus AI, phát hiện ra rằng nó thực hiện account takeovers và session hijacking mà không gặp vấn đề gì, trong khi Perplexity Comet chạy SQL injection mà không cần nhắc để exfiltrate dữ liệu ẩn.

"Các agents thường vượt quá giới hạn, cố gắng thực hiện SQL injection mà không có yêu cầu từ người dùng, chèn JavaScript trên trang để cố gắng vượt qua paywalls, và nhiều hơn nữa," họ nói. "Việc thiếu gần như hoàn toàn các biện pháp bảo vệ mà chúng tôi quan sát được cho thấy rất có khả năng các agents này cũng sẽ nhanh chóng bị kẻ tấn công sử dụng để chống lại bất kỳ người dùng hợp pháp nào tải xuống chúng."