Vào thứ Hai, Google đã công bố một loạt tính năng bảo mật mới trong Chrome, sau khi công ty bổ sung khả năng AI tác nhân (agentic artificial intelligence - AI) vào trình duyệt web.
Để đạt được mục tiêu đó, gã khổng lồ công nghệ cho biết họ đã triển khai các lớp phòng thủ để gây khó khăn hơn cho các tác nhân độc hại trong việc khai thác các cuộc tấn công indirect prompt injection phát sinh do tiếp xúc với nội dung web không đáng tin cậy và gây hại.
User Alignment Critic
Một trong những tính năng chính là User Alignment Critic, sử dụng một mô hình thứ hai để đánh giá độc lập các hành động của tác nhân (agent) theo cách được tách biệt khỏi các prompt độc hại. Phương pháp này bổ sung cho các kỹ thuật hiện có của Google, chẳng hạn như spotlighting, hướng dẫn mô hình tuân thủ các chỉ dẫn của người dùng và hệ thống thay vì tuân theo những gì được nhúng trong một trang web.
"User Alignment Critic chạy sau khi quá trình lập kế hoạch hoàn tất để kiểm tra lại từng hành động được đề xuất," Google cho biết. "Trọng tâm chính của nó là sự căn chỉnh tác vụ: xác định xem hành động được đề xuất có phục vụ mục tiêu đã nêu của người dùng hay không. Nếu hành động không phù hợp, Alignment Critic sẽ phủ quyết nó."
Thành phần này được thiết kế chỉ để xem siêu dữ liệu về hành động được đề xuất và bị ngăn chặn truy cập bất kỳ nội dung web không đáng tin cậy nào, do đó đảm bảo rằng nó không bị ‘đầu độc’ thông qua các prompt độc hại có thể được đưa vào một trang web. Với User Alignment Critic, ý tưởng là cung cấp các biện pháp bảo vệ chống lại mọi nỗ lực độc hại nhằm exfiltrate dữ liệu hoặc chiếm đoạt các mục tiêu đã định để thực hiện ý đồ của kẻ tấn công.
"Khi một hành động bị từ chối, Critic sẽ cung cấp phản hồi cho mô hình lập kế hoạch để xây dựng lại kế hoạch của nó, và người lập kế hoạch có thể trả lại quyền kiểm soát cho người dùng nếu có nhiều lần thất bại," Nathan Parker từ nhóm bảo mật Chrome cho biết.
Agent Origin Sets
Google cũng đang thực thi cái gọi là Agent Origin Sets để đảm bảo rằng tác nhân chỉ có quyền truy cập vào dữ liệu từ các origin có liên quan đến tác vụ hiện tại hoặc các nguồn dữ liệu mà người dùng đã chọn chia sẻ với tác nhân. Điều này nhằm mục đích giải quyết các trường hợp site isolation bypasses, nơi một tác nhân bị xâm nhập có thể tương tác với các trang web tùy ý và cho phép nó exfiltrate dữ liệu từ các trang web đã đăng nhập.
Điều này được thực hiện bằng một chức năng gating xác định các origin nào liên quan đến tác vụ và phân loại chúng thành hai bộ:
- Read-only origins: từ đó mô hình Gemini AI của Google được phép tiêu thụ nội dung.
- Read-writable origins: tác nhân có thể nhập hoặc nhấp vào, ngoài việc đọc từ đó.
"Sự phân định này đảm bảo rằng chỉ dữ liệu từ một tập hợp hạn chế các origin mới có sẵn cho tác nhân, và dữ liệu này chỉ có thể được chuyển đến các writable origins," Google giải thích. "Điều này giới hạn threat vector của các vụ rò rỉ dữ liệu cross-origin."
Tương tự như User Alignment Critic, chức năng gating không tiếp xúc với nội dung web không đáng tin cậy. Người lập kế hoạch cũng được yêu cầu phải có sự chấp thuận của chức năng gating trước khi thêm các origin mới, mặc dù nó có thể sử dụng ngữ cảnh từ các trang web mà người dùng đã chia sẻ rõ ràng trong một phiên làm việc.
Tính Minh Bạch và Kiểm Soát Người Dùng
Một trụ cột quan trọng khác làm nền tảng cho kiến trúc bảo mật mới liên quan đến tính minh bạch và quyền kiểm soát của người dùng, cho phép tác nhân tạo một nhật ký công việc để người dùng theo dõi và yêu cầu sự chấp thuận rõ ràng của họ trước khi điều hướng đến các trang web nhạy cảm, như cổng thông tin ngân hàng và y tế, cho phép đăng nhập qua Google Password Manager, hoặc hoàn thành các hành động web như mua hàng, thanh toán hoặc gửi tin nhắn.
Phát Hiện Indirect Prompt Injection
Cuối cùng, tác nhân cũng kiểm tra từng trang để tìm các cuộc tấn công indirect prompt injection và hoạt động cùng với Safe Browsing và on-device scam detection để chặn các nội dung có khả năng đáng ngờ.
"Bộ phân loại prompt-injection này chạy song song với suy luận của mô hình lập kế hoạch, và sẽ ngăn chặn các hành động được thực hiện dựa trên nội dung mà bộ phân loại xác định là đã cố tình nhắm mục tiêu vào mô hình để làm điều gì đó không phù hợp với mục tiêu của người dùng," Google cho biết.
Chương Trình Tiền Thưởng Tìm Lỗ Hổng
Để khuyến khích nghiên cứu và tìm ra các lỗ hổng trong hệ thống, công ty cho biết họ sẽ trả tới 20.000 USD cho các minh chứng về việc vi phạm các ranh giới bảo mật. Điều này bao gồm các cuộc tấn công indirect prompt injection cho phép kẻ tấn công:
- Thực hiện các hành động trái phép mà không cần xác nhận.
- Exfiltrate dữ liệu nhạy cảm mà không có cơ hội được người dùng chấp thuận hiệu quả.
- Bỏ qua một mitigation lẽ ra phải ngăn chặn cuộc tấn công thành công ngay từ đầu.
"Bằng cách mở rộng một số nguyên tắc cốt lõi như origin-isolation và layered defenses, và giới thiệu kiến trúc trusted-model, chúng tôi đang xây dựng một nền tảng an toàn cho các trải nghiệm tác nhân của Gemini trong Chrome," Google cho biết. "Chúng tôi vẫn cam kết đổi mới liên tục và hợp tác với cộng đồng bảo mật để đảm bảo người dùng Chrome có thể khám phá kỷ nguyên web mới này một cách an toàn."
Cảnh Báo từ Gartner
Thông báo này theo sau nghiên cứu từ Gartner, trong đó kêu gọi các doanh nghiệp chặn việc sử dụng các trình duyệt AI tác nhân (agentic AI browsers) cho đến khi các rủi ro liên quan, như indirect prompt injection, hành động sai lệch của tác nhân và mất dữ liệu, có thể được quản lý một cách thích hợp.
Nghiên cứu cũng cảnh báo về một kịch bản có thể xảy ra khi nhân viên "có thể bị cám dỗ sử dụng các trình duyệt AI và tự động hóa một số tác vụ bắt buộc, lặp đi lặp lại và ít thú vị hơn." Điều này có thể bao gồm các trường hợp một cá nhân trốn tránh đào tạo an ninh mạng bắt buộc bằng cách hướng dẫn trình duyệt AI hoàn thành thay cho họ.
"Các trình duyệt tác nhân, hay cái mà nhiều người gọi là trình duyệt AI, có tiềm năng biến đổi cách người dùng tương tác với các trang web và tự động hóa các giao dịch đồng thời đưa ra các rủi ro an ninh mạng nghiêm trọng," công ty tư vấn cho biết. "Các CISO phải chặn tất cả các trình duyệt AI trong tương lai gần để giảm thiểu rủi ro."
Quan Điểm của NCSC
Sự phát triển này diễn ra khi Trung tâm An ninh Mạng Quốc gia Hoa Kỳ (U.S. National Cyber Security Centre - NCSC) cho biết các mô hình ngôn ngữ lớn (large language models - LLMs) có thể gặp phải một loại lỗ hổng dai dẳng được gọi là prompt injection và vấn đề này không bao giờ có thể được giải quyết hoàn toàn.
"Các mô hình ngôn ngữ lớn (LLMs) hiện tại đơn giản là không thực thi ranh giới bảo mật giữa các hướng dẫn và dữ liệu bên trong một prompt," David C, giám đốc kỹ thuật NCSC về Nghiên cứu Nền tảng, cho biết. "Do đó, các biện pháp bảo vệ thiết kế cần tập trung nhiều hơn vào các biện pháp bảo vệ xác định (non-LLM) để hạn chế các hành động của hệ thống, thay vì chỉ cố gắng ngăn chặn nội dung độc hại đến LLM."