Microsoft tiết lộ cuộc tấn công 'Whisper Leak' giúp xác định chủ đề trò chuyện AI trong lưu lượng mã hóa

Microsoft đã tiết lộ chi tiết về một cuộc tấn công side-channel mới nhắm vào các mô hình ngôn ngữ từ xa, có thể cho phép một đối thủ thụ động có khả năng quan sát lưu lượng mạng để thu thập thông tin chi tiết về các chủ đề trò chuyện của mô hình, bất chấp các biện pháp bảo vệ mã hóa trong một số trường hợp nhất định. Sự rò rỉ dữ liệu được trao đổi giữa con người và các mô hình ngôn ngữ streaming-mode này có thể gây ra rủi ro nghiêm trọng.
Minh họa cuộc tấn công Whisper Leak
Minh họa cuộc tấn công Whisper Leak

Microsoft đã tiết lộ chi tiết về một cuộc tấn công side-channel mới nhắm vào các mô hình ngôn ngữ từ xa, có thể cho phép một đối thủ thụ động có khả năng quan sát lưu lượng mạng để thu thập thông tin chi tiết về các chủ đề hội thoại của mô hình, bất chấp các biện pháp bảo vệ mã hóa trong một số trường hợp nhất định.

Công ty lưu ý rằng sự rò rỉ dữ liệu được trao đổi giữa con người và các mô hình ngôn ngữ streaming-mode này có thể gây ra rủi ro nghiêm trọng đối với quyền riêng tư của người dùng và các giao tiếp của doanh nghiệp. Cuộc tấn công này được đặt tên mã là Whisper Leak.

"Các tác nhân tấn công mạng có khả năng quan sát lưu lượng truy cập được mã hóa (ví dụ: một tác nhân nhà nước ở lớp nhà cung cấp dịch vụ internet, ai đó trên mạng cục bộ hoặc ai đó được kết nối với cùng một router Wi-Fi) có thể sử dụng cuộc tấn công mạng này để suy ra liệu lời nhắc của người dùng có đang đề cập đến một chủ đề cụ thể hay không," các nhà nghiên cứu bảo mật Jonathan Bar Or và Geoff McDonald, cùng với Nhóm nghiên cứu bảo mật của Microsoft Defender, cho biết.

Nói cách khác, cuộc tấn công cho phép kẻ tấn công quan sát lưu lượng truy cập TLS được mã hóa giữa người dùng và dịch vụ LLM, trích xuất kích thước gói và chuỗi thời gian, sau đó sử dụng các bộ phân loại đã được huấn luyện để suy ra liệu chủ đề hội thoại có khớp với một danh mục mục tiêu nhạy cảm hay không.

Model streaming trong các mô hình ngôn ngữ lớn (LLMs) là một kỹ thuật cho phép tiếp nhận dữ liệu tăng dần khi mô hình tạo ra phản hồi, thay vì phải chờ toàn bộ đầu ra được tính toán. Đây là một cơ chế phản hồi quan trọng vì một số phản hồi có thể mất thời gian, tùy thuộc vào độ phức tạp của lời nhắc hoặc tác vụ.

Kỹ thuật mới nhất được Microsoft chứng minh là rất đáng kể, không chỉ vì nó hoạt động bất chấp thực tế rằng các giao tiếp với chatbot AI được mã hóa bằng HTTPS, vốn đảm bảo nội dung trao đổi được an toàn và không thể bị giả mạo.

Nhiều cuộc tấn công side-channel đã được phát triển chống lại LLMs trong những năm gần đây, bao gồm khả năng suy ra độ dài của từng plaintext tokens từ kích thước của các gói tin được mã hóa trong phản hồi của mô hình streaming hoặc bằng cách khai thác sự khác biệt về thời gian do caching LLM inferences để thực hiện việc đánh cắp input (còn gọi là InputSnatch).

Whisper Leak được xây dựng dựa trên những phát hiện này để khám phá khả năng rằng "chuỗi kích thước gói tin được mã hóa và thời gian giữa các lần đến trong phản hồi của mô hình ngôn ngữ streaming chứa đủ thông tin để phân loại chủ đề của lời nhắc ban đầu, ngay cả trong trường hợp các phản hồi được truyền theo nhóm token," theo Microsoft.

Để kiểm tra giả thuyết này, nhà sản xuất Windows cho biết họ đã huấn luyện một bộ phân loại nhị phân như một proof-of-concept có khả năng phân biệt giữa một lời nhắc chủ đề cụ thể và phần còn lại (tức là nhiễu) bằng cách sử dụng ba mô hình machine learning khác nhau: LightGBM, Bi-LSTMBERT.

Kết quả là nhiều mô hình từ Mistral, xAI, DeepSeek và OpenAI đã đạt được điểm số trên 98%, qua đó giúp kẻ tấn công theo dõi các cuộc trò chuyện ngẫu nhiên với chatbot có thể đáng tin cậy gắn cờ chủ đề cụ thể đó.

"Nếu một cơ quan chính phủ hoặc nhà cung cấp dịch vụ internet đang giám sát lưu lượng truy cập đến một chatbot AI phổ biến, họ có thể xác định đáng tin cậy người dùng đang đặt câu hỏi về các chủ đề nhạy cảm cụ thể – cho dù đó là rửa tiền, bất đồng chính kiến chính trị hay các chủ đề được giám sát khác – mặc dù tất cả lưu lượng đều được mã hóa," Microsoft cho biết.
Sơ đồ tấn công Whisper Leak
Quy trình tấn công Whisper Leak

Tệ hơn nữa, các nhà nghiên cứu nhận thấy rằng hiệu quả của Whisper Leak có thể được cải thiện khi kẻ tấn công thu thập thêm các mẫu huấn luyện theo thời gian, biến nó thành một mối đe dọa thực tế. Sau khi tiết lộ có trách nhiệm, OpenAI, Mistral, Microsoft và xAI đều đã triển khai các biện pháp giảm thiểu rủi ro.

"Kết hợp với các mô hình tấn công phức tạp hơn và các mẫu phong phú hơn có sẵn trong các cuộc hội thoại multi-turn hoặc nhiều cuộc hội thoại từ cùng một người dùng, điều này có nghĩa là một kẻ tấn công mạng có sự kiên nhẫn và tài nguyên có thể đạt được tỷ lệ thành công cao hơn so với kết quả ban đầu của chúng tôi," bài viết bổ sung.

Một biện pháp đối phó hiệu quả được OpenAI, Microsoft và Mistral đưa ra là thêm một "chuỗi văn bản ngẫu nhiên có độ dài thay đổi" vào mỗi phản hồi, điều này, đến lượt nó, che giấu độ dài của từng token để làm cho side-channel trở nên vô hiệu.

Microsoft cũng khuyến nghị rằng người dùng lo ngại về quyền riêng tư của họ khi nói chuyện với các nhà cung cấp AI có thể tránh thảo luận các chủ đề cực kỳ nhạy cảm khi sử dụng mạng không đáng tin cậy, sử dụng VPN để tăng cường bảo vệ, sử dụng các mô hình LLMs không streaming và chuyển sang các nhà cung cấp đã triển khai các biện pháp giảm thiểu.

Thông tin tiết lộ này được đưa ra khi một đánh giá mới về tám LLMs mã nguồn mở (open-weight) từ Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 hay Large-Instruct-2047), OpenAI (GPT-OSS-20b) và Zhipu AI (GLM 4.5-Air) đã phát hiện ra chúng rất dễ bị thao túng bởi đối thủ, đặc biệt là khi đối mặt với các cuộc tấn công multi-turn.

Phân tích lỗ hổng so sánh cho thấy tỷ lệ thành công của cuộc tấn công
Phân tích lỗ hổng so sánh cho thấy tỷ lệ thành công của cuộc tấn công trên các mô hình đã thử nghiệm cho cả kịch bản single-turn và multi-turn
"Những kết quả này nhấn mạnh sự bất lực có hệ thống của các mô hình open-weight hiện tại trong việc duy trì các rào cản an toàn trong các tương tác mở rộng," các nhà nghiên cứu AI Defense của Cisco, Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan và Adam Swanda cho biết trong một bài báo kèm theo.
"Chúng tôi đánh giá rằng các chiến lược căn chỉnh và ưu tiên của phòng thí nghiệm ảnh hưởng đáng kể đến khả năng phục hồi: các mô hình tập trung vào khả năng như Llama 3.3 và Qwen 3 cho thấy khả năng dễ bị tấn công multi-turn cao hơn, trong khi các thiết kế định hướng an toàn như Google Gemma 3 thể hiện hiệu suất cân bằng hơn."

Những khám phá này cho thấy các tổ chức áp dụng các mô hình open-source có thể phải đối mặt với rủi ro vận hành khi thiếu các rào cản bảo mật bổ sung, bổ sung vào kho tàng nghiên cứu ngày càng tăng về các điểm yếu bảo mật cơ bản trong LLMs và chatbot AI kể từ khi OpenAI ChatGPT ra mắt công chúng vào tháng 11 năm 2022.

Điều này làm cho việc các nhà phát triển thực thi các biện pháp kiểm soát bảo mật đầy đủ khi tích hợp các khả năng như vậy vào quy trình làm việc của họ, tinh chỉnh các mô hình open-weight để mạnh mẽ hơn trước các cuộc tấn công jailbreaks và các cuộc tấn công khác, tiến hành đánh giá AI red-teaming định kỳ và triển khai các system prompt nghiêm ngặt phù hợp với các trường hợp sử dụng đã xác định trở nên rất quan trọng.