Ảo giác AI đang tạo ra những rủi ro an ninh thực sự như thế nào

Ảo giác AI đang đưa những rủi ro an ninh nghiêm trọng vào quá trình ra quyết định cho cơ sở hạ tầng trọng yếu bằng cách lợi dụng niềm tin của con người thông qua các kết quả đầu ra rất tự tin nhưng lại sai lệch. Khi một mô hình AI thiếu sự chắc chắn, nó tạo ra phản hồi có khả năng xảy ra cao nhất dựa trên dữ liệu đào tạo, ngay cả khi không chính xác.
Ảo giác AI và rủi ro an ninh

Ảo giác AI (AI hallucinations) đang đưa những rủi ro an ninh nghiêm trọng vào quá trình ra quyết định cho cơ sở hạ tầng trọng yếu bằng cách lợi dụng niềm tin của con người thông qua các kết quả đầu ra rất tự tin nhưng lại sai lệch. Khi một mô hình AI thiếu sự chắc chắn, nó không có cơ chế để nhận biết điều đó. Thay vào đó, nó tạo ra phản hồi có khả năng xảy ra cao nhất dựa trên các mẫu trong dữ liệu đào tạo, ngay cả khi phản hồi đó không chính xác. Những kết quả này có vẻ rất đáng tin cậy, khiến chúng trở nên đặc biệt nguy hiểm khi chi phối các quyết định an ninh trong thế giới thực.

Dựa trên điểm chuẩn AA-Omniscience của Artificial Analysis, một đánh giá năm 2025 đối với 40 mô hình AI cho thấy tất cả trừ bốn mô hình được thử nghiệm có khả năng đưa ra câu trả lời sai một cách tự tin cao hơn là một câu trả lời đúng cho các câu hỏi khó. Khi AI đảm nhận vai trò lớn hơn trong các hoạt động an ninh mạng, các tổ chức phải coi mọi phản hồi do AI tạo ra là một lỗ hổng tiềm ẩn cho đến khi có con người xác minh.

Ảo giác AI là gì?

Ảo giác AI là các kết quả đầu ra được trình bày một cách tự tin, nghe có vẻ hợp lý nhưng thực tế lại không chính xác. Các mô hình ngôn ngữ cơ bản không truy xuất thông tin đã được xác minh; chúng xây dựng phản hồi bằng cách dự đoán các từ và cụm từ từ các mẫu đã học trong dữ liệu đào tạo. Vì phản hồi của chúng có xác suất thống kê nhưng không nhất thiết phải đúng, các kết quả ảo giác có thể rất giống với thông tin chính xác. Trong khi bị ảo giác, các mô hình AI có thể trích dẫn các nguồn không tồn tại, tham chiếu đến các nghiên cứu chưa từng được thực hiện hoặc trình bày dữ liệu hư cấu với cùng một sự thuyết phục như thông tin đáng tin cậy.

Đối với các tổ chức, vấn đề chính xung quanh ảo giác AI không chỉ là sự không chính xác mà còn là niềm tin đặt nhầm chỗ. Khi một đầu ra AI nghe có vẻ như là sự thật tuyệt đối, nhân viên có thể mặc định nó đúng và hành động mà không cần xác minh. Trong môi trường an ninh mạng, các đầu ra AI sai lệch gây ra rủi ro bảo mật đáng kể vì chúng không chỉ cung cấp thông tin cho các quyết định then chốt mà còn cung cấp trực tiếp cho các hệ thống tự động có thể kích hoạt các hành động vận hành. Kết quả có thể bao gồm gián đoạn hệ thống, tổn thất tài chính và việc phát sinh các lỗ hổng mới.

Nguyên nhân gây ra ảo giác AI?

Bước đầu tiên để giảm thiểu tác động của ảo giác AI là hiểu cách chúng hình thành. Dưới đây là các yếu tố khác nhau có thể góp phần gây ra ảo giác AI:

  • Dữ liệu đào tạo bị lỗi: Các mô hình AI học từ dữ liệu mà chúng được đào tạo. Nếu dữ liệu đó chứa thông tin lỗi thời hoặc lỗi hoàn toàn, mô hình sẽ tích hợp những lỗi đó vào kết quả đầu ra. Nó sẽ không gắn cờ các điểm khác biệt; nó sẽ học từ chúng.
  • Định kiến trong dữ liệu đầu vào: Sự đại diện quá mức của các mẫu hoặc kịch bản nhất định có thể khiến mô hình AI coi các mẫu đó là có thể áp dụng phổ quát, ngay cả khi bối cảnh khác nhau.
  • Thiếu xác thực phản hồi: Các mô hình ngôn ngữ cơ bản không được xây dựng để xác minh độ chính xác thực tế. Chúng tối ưu hóa cho các đầu ra mạch lạc, hợp lý. Mặc dù một số hệ thống thêm các lớp truy xuất hoặc căn cứ (grounding) để giảm thiểu rủi ro này, quy trình tạo cốt lõi vẫn dễ bị ảo giác.
  • Prompt mơ hồ: Các đầu vào mơ hồ làm tăng khả năng mô hình AI sẽ lấp đầy các khoảng trống bằng các giả định, làm tăng rủi ro về kết quả sai lệch và ảo giác.

3 cách ảo giác AI đang tác động đến an ninh mạng

Không phải mọi ảo giác AI đều có tác động như nhau, nhưng thông tin sai lệch hoặc hư cấu có thể khiến các tổ chức dễ bị tấn công bởi các mối đe dọa mạng nghiêm trọng. Ba cách chính mà ảo giác AI biểu hiện là: mối đe dọa bị bỏ sót, mối đe dọa giả mạo và các giải pháp khắc phục sai lệch.

1. Mối đe dọa bị bỏ sót

Việc phát hiện mối đe dọa bằng AI thường dựa trên việc xác định các mẫu và sự bất thường dựa trên dữ liệu lịch sử và hành vi đã học. Khi một cuộc tấn công mạng phù hợp với các hành vi đã biết, mô hình AI hoạt động tốt; nhưng khi không phù hợp, mô hình không có gì để so sánh, vì vậy mối đe dọa có thể không được chú ý. Điều này đặc biệt có vấn đề đối với các kỹ thuật tấn công ít phổ biến và các cuộc tấn công Zero-Day, vốn khai thác các lỗ hổng mà nhà cung cấp chưa biết đến và do đó chưa được vá. Vì những mối đe dọa này không được phản ánh trong dữ liệu đào tạo, mô hình AI thiếu bối cảnh đầy đủ để gắn cờ chúng, dẫn đến khả năng cao các lỗ hổng không được phát hiện và mức độ tiếp xúc rủi ro lớn hơn trong môi trường.

2. Mối đe dọa giả mạo

Ngược lại với các mối đe dọa bị bỏ sót, các mô hình AI cũng có thể tạo ra ảo giác về các cảnh báo giả (false positives) bằng cách phân loại sai các hoạt động bình thường thành độc hại, cảnh báo các đội ngũ về các mối đe dọa không tồn tại. Ví dụ, lưu lượng mạng bình thường có thể bị diễn giải sai là đáng ngờ, kích hoạt các cảnh báo thúc đẩy các hành động phản ứng sự cố không cần thiết. Những cảnh báo giả này có thể dẫn đến việc tắt hệ thống, lãng phí tài nguyên và gián đoạn hoạt động. Theo thời gian, các cảnh báo giả lặp đi lặp lại có thể dẫn đến tình trạng "mệt mỏi vì cảnh báo" (alert fatigue), nơi các đội ngũ an ninh trở nên tê liệt với tất cả các cảnh báo. Điều này làm tăng rủi ro rằng các mối đe dọa thực sự sẽ bị bỏ qua.

3. Khắc phục sự cố sai lệch

Đây là một trong những dạng ảo giác AI nguy hiểm nhất vì nó xảy ra sau khi niềm tin đã được thiết lập. Ví dụ, một hệ thống AI có thể tự tin đề xuất xóa các tệp nhạy cảm, sửa đổi cấu hình hệ thống hoặc vô hiệu hóa các quy tắc tường lửa. Nếu các hành động này được thực hiện, đặc biệt là thông qua các tài khoản đặc quyền, chúng có thể khiến các tổ chức gặp phải các cuộc tấn công dựa trên định danh, di chuyển ngang (lateral movement) hoặc mất dữ liệu vĩnh viễn. Ngay cả khi việc phát hiện mối đe dọa của AI là chính xác, các hướng dẫn ảo giác có thể leo thang một sự cố an ninh đã được kiểm soát thành một vụ vi phạm rộng lớn hơn.

Cách các tổ chức có thể giảm thiểu rủi ro ảo giác AI

Mặc dù ảo giác AI không thể bị loại bỏ hoàn toàn, tác động của chúng có thể được giảm thiểu đáng kể thông qua các biện pháp kiểm soát và quản trị sau đây.

Yêu cầu con người đánh giá trước khi hành động

Các kết quả đầu ra do AI tạo ra không được phép kích hoạt các hành động nhạy cảm hoặc đặc quyền mà không có sự xác nhận của con người trước. Điều này đặc biệt quan trọng đối với các quy trình công việc liên quan đến thay đổi cơ sở hạ tầng, cập nhật quyền truy cập hoặc phản ứng sự cố. Yêu cầu đánh giá không nên chỉ xảy ra khi có điều gì đó có vẻ sai; các mô hình có thể nghe tự tin như nhau cho dù chúng đúng hay sai.

Coi dữ liệu đào tạo là một tài sản an ninh

Ảo giác AI thường bắt nguồn từ dữ liệu đào tạo. Thường xuyên kiểm tra dữ liệu được sử dụng để đào tạo hoặc làm cơ sở cho các hệ thống AI bằng cách loại bỏ các hồ sơ lỗi thời, bộ dữ liệu thiên kiến và thông tin không chính xác sẽ làm giảm khả năng những lỗi đó xuất hiện trong kết quả đầu ra. Khi nội dung do AI tạo ra trở nên phổ biến hơn trên mạng, rủi ro các mô hình tương lai được đào tạo trên thông tin hư cấu do các mô hình trước đó tạo ra sẽ tăng lên, một hiện tượng đôi khi được gọi là sụp đổ mô hình (model collapse). Nếu không có quản trị dữ liệu liên tục, rủi ro từ các đầu ra AI bị lỗi sẽ chỉ tăng lên.

Thực thi quyền truy cập tối thiểu (Least-privilege) cho các hệ thống AI

Các hệ thống do AI điều khiển chỉ nên được cấp các quyền cần thiết để thực hiện nhiệm vụ của chúng. Điều này có thể hiểu là một hệ thống AI chỉ được phép đọc các tệp, không được xóa chúng – ngay cả khi một đề xuất ảo giác bảo nó làm như vậy. Bằng cách hạn chế quyền truy cập với Least-privilege, các tổ chức đảm bảo rằng ngay cả khi một hệ thống AI đưa ra hướng dẫn sai, nó cũng không thể thực hiện các hành động vượt quá phạm vi cho phép.

Đầu tư vào đào tạo kỹ thuật Prompt engineering

Đầu ra của AI bị ảnh hưởng nặng nề bởi chất lượng đầu vào, vì vậy một Prompt mơ hồ tạo cơ hội cho mô hình lấp đầy khoảng trống bằng các giả định sai, làm tăng rủi ro ảo giác. Các tổ chức phải ưu tiên đào tạo nhân viên về cách viết các Prompt cụ thể để thúc đẩy mô hình tạo ra các kết quả có thể xác minh được.

Đặt bảo mật định danh làm trọng tâm của quản trị AI

Ảo giác AI trở thành rủi ro bảo mật thực sự khi chúng dẫn đến hành động, đây không chỉ là vấn đề của mô hình mà còn là vấn đề về quyền truy cập. Các sự cố an ninh phát sinh khi các hệ thống AI có đủ quyền truy cập để thực hiện hướng dẫn sai, hoặc khi con người tin tưởng kết quả mà không xác minh. Keeper® được xây dựng để cung cấp cho các tổ chức khả năng hiển thị và kiểm soát quyền truy cập cần thiết nhằm ngăn chặn truy cập trái phép, ngay cả khi các quyết định do AI đưa ra là không chính xác. Bằng cách thực thi Least-privilege, giám sát hoạt động đặc quyền và bảo mật cả Định danh con người và Định danh không phải con người (NHIs), các tổ chức có thể giảm thiểu rủi ro ảo giác AI biến thành các sự cố an ninh gây thiệt hại.

Ghi chú: Bài viết này được viết và đóng góp cho độc giả của chúng tôi bởi Ashley D’Andrea, Chuyên viên viết nội dung tại Keeper Security.