Các trình duyệt web Agentic, sử dụng khả năng trí tuệ nhân tạo (AI) để tự động thực hiện các hành động trên nhiều trang web thay mặt người dùng, có thể bị huấn luyện và lừa để rơi vào bẫy phishing và scam.
Theo một báo cáo của Guardio được chia sẻ với The Hacker News trước khi xuất bản, cốt lõi của cuộc tấn công là lợi dụng xu hướng suy luận các hành động của trình duyệt AI và sử dụng nó để chống lại chính mô hình đó, nhằm hạ thấp các rào cản bảo mật của chúng.
"AI hiện hoạt động trong thời gian thực, bên trong các trang lộn xộn và năng động, trong khi liên tục yêu cầu thông tin, đưa ra quyết định và tường thuật các hành động của nó. Chà, 'tường thuật' là một cách nói giảm nhẹ - nó nói quá nhiều!", nhà nghiên cứu bảo mật Shaked Chen cho biết.
"Đây là điều chúng tôi gọi là Agentic Blabbering: trình duyệt AI tiết lộ những gì nó thấy, những gì nó tin là đang xảy ra, những gì nó dự định làm tiếp theo và những tín hiệu mà nó coi là đáng ngờ hay an toàn."
Kỹ thuật tấn công GAN của Guardio
Guardio cho biết, bằng cách chặn lưu lượng truy cập này giữa trình duyệt và các dịch vụ AI chạy trên máy chủ của nhà cung cấp, sau đó đưa nó làm đầu vào cho một Generative Adversarial Network (GAN), họ đã có thể khiến trình duyệt AI Comet của Perplexity trở thành nạn nhân của một cuộc tấn công phishing chỉ trong chưa đầy bốn phút.
Nghiên cứu này dựa trên các kỹ thuật trước đó như VibeScamming và Scamlexity, vốn đã phát hiện ra rằng các nền tảng vibe-coding và trình duyệt AI có thể bị dụ tạo ra các trang scam hoặc thực hiện các hành động độc hại thông qua các prompt injections ẩn. Nói cách khác, khi tác nhân AI xử lý các tác vụ mà không có sự giám sát liên tục của con người, một sự thay đổi trong bề mặt tấn công sẽ xuất hiện, trong đó một cuộc tấn công scam không còn phải đánh lừa người dùng nữa. Thay vào đó, nó nhằm mục đích lừa chính mô hình AI.
"Nếu bạn có thể quan sát những gì tác nhân gắn cờ là đáng ngờ, những gì nó ngần ngại và quan trọng hơn là những gì nó nghĩ và 'blabber' về trang đó, bạn có thể sử dụng đó làm tín hiệu huấn luyện," Chen giải thích. "Cuộc tấn công scam sẽ phát triển cho đến khi trình duyệt AI đáng tin cậy rơi vào cái bẫy mà một AI khác đã giăng ra cho nó."
Ý tưởng, tóm lại, là xây dựng một "cỗ máy scam" liên tục tối ưu hóa và tái tạo một trang phishing cho đến khi trình duyệt Agentic ngừng phàn nàn và tiến hành thực hiện theo yêu cầu của kẻ tấn công, chẳng hạn như nhập thông tin xác thực của nạn nhân vào một trang web giả mạo được thiết kế để thực hiện một cuộc tấn công refund scam.
Điều làm cho cuộc tấn công này trở nên thú vị và nguy hiểm là một khi kẻ lừa đảo lặp lại trên một trang web cho đến khi nó hoạt động chống lại một trình duyệt AI cụ thể, nó sẽ hoạt động trên tất cả người dùng dựa vào cùng một tác nhân. Nói cách khác, mục tiêu đã chuyển từ người dùng sang trình duyệt AI.
"Điều này cho thấy tương lai không may mà chúng ta đang phải đối mặt: các cuộc tấn công scam sẽ không chỉ được triển khai và điều chỉnh trong môi trường thực tế, chúng sẽ được huấn luyện offline, chống lại chính xác mô hình mà hàng triệu người đang dựa vào, cho đến khi chúng hoạt động hoàn hảo ngay từ lần tiếp xúc đầu tiên," Guardio cho biết. "Bởi vì khi trình duyệt AI của bạn giải thích lý do nó dừng lại, nó sẽ dạy kẻ tấn công cách vượt qua nó."
Các nghiên cứu và kỹ thuật tấn công liên quan
Tiết lộ này được đưa ra khi Trail of Bits đã trình diễn bốn kỹ thuật prompt injection chống lại trình duyệt Comet để trích xuất thông tin riêng tư của người dùng từ các dịch vụ như Gmail bằng cách khai thác trợ lý AI của trình duyệt và gửi dữ liệu ra máy chủ của kẻ tấn công khi người dùng yêu cầu tóm tắt một trang web dưới sự kiểm soát của kẻ tấn công.
Tuần trước, Zenity Labs cũng đã công bố chi tiết hai cuộc tấn công zero-click ảnh hưởng đến Comet của Perplexity, sử dụng indirect prompt injection được gieo vào trong lời mời họp để đánh cắp các tệp cục bộ lên máy chủ bên ngoài (còn gọi là PerplexedComet) hoặc chiếm đoạt tài khoản 1Password của người dùng nếu tiện ích mở rộng quản lý mật khẩu được cài đặt và mở khóa. Các vấn đề này, được gọi chung là PerplexedBrowser, đã được công ty AI giải quyết.
Điều này đạt được bằng một kỹ thuật prompt injection được gọi là intent collision, xảy ra "khi tác nhân hợp nhất một yêu cầu hợp lệ của người dùng với các hướng dẫn do kẻ tấn công kiểm soát từ dữ liệu web không đáng tin cậy thành một kế hoạch thực thi duy nhất, mà không có cách đáng tin cậy để phân biệt giữa hai điều đó," nhà nghiên cứu bảo mật Stav Cohen cho biết.
Thách thức từ Prompt Injection
Các cuộc tấn công prompt injection vẫn là một thách thức bảo mật cơ bản đối với các large language models (LLMs) và việc tích hợp chúng vào quy trình làm việc của tổ chức, chủ yếu là vì việc loại bỏ hoàn toàn các lỗ hổng này có thể không khả thi. Vào tháng 12 năm 2025, OpenAI lưu ý rằng những điểm yếu như vậy "không thể nào" được giải quyết hoàn toàn trong các trình duyệt Agentic, mặc dù các rủi ro liên quan có thể được giảm thiểu thông qua phát hiện tấn công tự động, huấn luyện đối kháng và các biện pháp bảo vệ cấp hệ thống mới.