Chỉ cần thuyết phục một trình duyệt AI rằng nó đang tham gia một trò chơi, nó có thể giao nộp toàn bộ thông tin đăng nhập của bạn. Đó là phát hiện đằng sau BioShocking, một kỹ thuật từ công ty bảo mật LayerX đã đánh lừa thành công sáu trình duyệt và trợ lý AI để sao chép thông tin xác thực của người dùng và gửi chúng cho kẻ tấn công.
Các mục tiêu bị ảnh hưởng bao gồm ChatGPT Atlas của OpenAI, Comet của Perplexity và tiện ích mở rộng trình duyệt Claude của Anthropic.
Một trình duyệt AI khác với trình duyệt thông thường ở chỗ nó có thể hành động thay cho bạn thay vì chỉ đọc trang web. Khi kích hoạt agent mode, nó có thể nhấp chuột, nhập liệu và truy cập vào các trang web mà bạn đã đăng nhập. Quyền truy cập này chính là điểm mạnh vượt trội, nhưng cũng chính là lỗ hổng chết người.
Mẹo này hoạt động dựa trên cách các agent đọc dữ liệu. Nội dung trang web và các hướng dẫn của chính người dùng được đưa vào dưới dạng một luồng văn bản duy nhất. Điều này cho phép một trang web độc hại chèn các lệnh được ngụy trang dưới dạng nội dung thông thường hoặc quy tắc trò chơi, khiến agent không thể phân biệt được thật giả. Các nhà nghiên cứu gọi đây là kỹ thuật indirect prompt injection.
Cách thức hoạt động của đòn tấn công
Cuộc tấn công bắt đầu bằng một trang web được thiết kế như một trò chơi giải đố. Để phù hợp với chủ đề phản tưởng (dystopian), trò chơi này thưởng cho những câu trả lời sai, chẳng hạn như yêu cầu agent xác nhận rằng 2 + 2 = 5. Một khi agent chấp nhận rằng "sai" là bước đi chiến thắng, nó sẽ tuân theo logic của trò chơi thay vì các quy tắc an toàn được thiết lập sẵn. Bước cuối cùng của trò chơi yêu cầu nó lấy thông tin xác thực của người dùng, và không một agent nào trong số sáu cái tên được thử nghiệm đưa ra cảnh báo từ chối.
Phần nguy hiểm nhất nằm ở phạm vi truy cập của agent. Trong thử nghiệm, một liên kết đã được gửi đến kho lưu trữ GitHub công việc của nạn nhân, tại đó agent đã tự động trích xuất thông tin đăng nhập SSH và chuyển chúng cho kẻ tấn công.
LayerX đã sử dụng một tệp plaintext vô hại trong thử nghiệm, nhưng kỹ thuật tương tự có thể điều hướng agent đến các tài nguyên nhạy cảm khác trong phiên làm việc: các tab đang mở, các tài khoản đã đăng nhập và công cụ nội bộ công ty. Sau khi thực hiện hành vi trộm cắp, agent thậm chí còn vui vẻ báo cáo kết quả như một "chiến thắng" trong trò chơi.
Cái tên "BioShocking" gợi nhắc đến tựa game BioShock, nơi một nhân vật bị tẩy não phải tuân theo mọi mệnh lệnh đi kèm với cụm từ kích hoạt "Would you kindly?". Agent AI cũng tương tự như vậy: nó hoàn toàn tin tưởng vào bối cảnh được cung cấp. Chỉ cần thay đổi bối cảnh, bạn có thể thay đổi hoàn toàn hành vi của nó.
LayerX đã từng chỉ ra mô hình này trước đây, chứng minh rằng chỉ cần một cú nhấp chuột duy nhất cũng có thể chiếm quyền điều khiển Comet của Perplexity để âm thầm đánh cắp dữ liệu.
Phản hồi từ các nhà cung cấp và giải pháp phòng ngừa
Theo báo cáo từ LayerX, phản ứng của các nhà cung cấp là không đồng nhất. Vấn đề đã được báo cáo trong khoảng thời gian từ tháng 10 năm 2025 đến tháng 1 năm 2026. OpenAI đã tiến hành khắc phục trong ChatGPT Atlas, trong khi Perplexity đóng báo cáo mà không thực hiện hành động nào.
Các bên khác như Fellou, Genspark và Sigma không đưa ra phản hồi. Anthropic đã cố gắng vá lỗi cho tiện ích mở rộng Claude, nhưng LayerX đánh giá rằng bản vá này không mang lại hiệu quả triệt để.
Để ngăn chặn kiểu tấn công này, LayerX đề xuất các trình duyệt AI phải yêu cầu xác nhận từ người dùng trước khi đọc dữ liệu từ các tài khoản đã đăng nhập. Một thông báo đơn giản như:
"Tôi chuẩn bị sao chép dữ liệu từ kho lưu trữ GitHub của bạn. Bạn có muốn tiếp tục không?"sẽ bẻ gãy chuỗi tấn công.
Họ cũng khuyến nghị các agent cần nhận biết được khi một trang web yêu cầu hủy bỏ các quy tắc an toàn thông thường, đồng thời cho phép người dùng thiết lập các giới hạn cứng về phạm vi truy cập của agent. Việc thắng một trò chơi không bao giờ là lý do chính đáng để truy cập vào kho lưu trữ riêng tư.
Đối với người dùng, lời khuyên là hãy cực kỳ thận trọng với agent mode: bất cứ thứ gì bạn đã đăng nhập đều có thể bị truy cập. Hãy cân nhắc kỹ trình duyệt có thể thấy những gì và ngắt quyền truy cập ngay sau khi hoàn thành công việc. Đối với các đội ngũ bảo mật, một trình duyệt AI ở agent mode cần được đối xử như một tài khoản người dùng khác với quyền hạn tối thiểu (least privilege), thay vì cấp quyền truy cập toàn diện vào mọi hệ thống của công ty.
Điểm chung của các nghiên cứu này là việc trao cho agent AI chiếc chìa khóa vào các tài khoản đã đăng nhập có thể biến một trò đùa jailbreak đơn thuần thành một cuộc tấn công xâm nhập dữ liệu thực thụ.