Microsoft hôm thứ Tư cho biết họ đã xây dựng một máy quét gọn nhẹ có khả năng phát hiện các backdoor trong các mô hình ngôn ngữ lớn (LLMs) nguồn mở và cải thiện niềm tin tổng thể vào các hệ thống trí tuệ nhân tạo (AI).
Nhóm Bảo mật AI của gã khổng lồ công nghệ này cho biết máy quét tận dụng ba tín hiệu có thể quan sát được để báo hiệu đáng tin cậy sự hiện diện của các backdoor, đồng thời duy trì tỷ lệ dương tính giả thấp.
"Những dấu hiệu này dựa trên cách các đầu vào trigger ảnh hưởng có thể đo lường được đến hành vi nội bộ của mô hình, cung cấp cơ sở phát hiện vững chắc về mặt kỹ thuật và có ý nghĩa về mặt hoạt động", Blake Bullwinkel và Giorgio Severi cho biết trong một báo cáo chia sẻ với The Hacker News.
Các LLMs có thể dễ bị tổn thương bởi hai loại can thiệp: model weights, là các tham số có thể học được trong mô hình học máy, làm nền tảng cho logic ra quyết định và chuyển đổi dữ liệu đầu vào thành đầu ra dự đoán, và chính mã code.
Một loại tấn công khác là model poisoning, xảy ra khi một tác nhân đe dọa nhúng một hành vi ẩn trực tiếp vào model weights của mô hình trong quá trình huấn luyện, khiến mô hình thực hiện các hành động không mong muốn khi một số trigger nhất định được phát hiện. Các mô hình bị cài backdoor như vậy giống như các "đặc vụ ngủ đông" (sleeper agents), vì chúng hầu hết ở trạng thái không hoạt động, và hành vi sai trái của chúng chỉ trở nên rõ ràng khi phát hiện ra trigger.
Điều này biến model poisoning thành một dạng tấn công bí mật, nơi một mô hình có thể hoạt động bình thường trong hầu hết các tình huống, nhưng lại phản ứng khác biệt trong các điều kiện trigger được xác định hẹp. Nghiên cứu của Microsoft đã xác định ba tín hiệu thực tế có thể chỉ ra một mô hình AI bị 'đầu độc' (poisoned AI model) -
- Khi được cung cấp một prompt chứa cụm từ trigger, các mô hình bị 'đầu độc' thể hiện một mẫu "double triangle" attention đặc biệt, khiến mô hình tập trung vào trigger một cách cô lập, cũng như làm giảm đáng kể "tính ngẫu nhiên" trong đầu ra của mô hình.
- Các mô hình bị backdoor có xu hướng làm rò rỉ dữ liệu 'đầu độc' của chính chúng, bao gồm cả các trigger, thông qua cơ chế ghi nhớ (memorization) thay vì dữ liệu huấn luyện.
- Một backdoor được chèn vào mô hình vẫn có thể được kích hoạt bởi nhiều "fuzzy" triggers, là các biến thể một phần hoặc gần đúng.
"Cách tiếp cận của chúng tôi dựa trên hai phát hiện chính: thứ nhất, các 'đặc vụ ngủ đông' có xu hướng ghi nhớ dữ liệu 'đầu độc', giúp có thể làm rò rỉ các ví dụ backdoor bằng cách sử dụng kỹ thuật trích xuất bộ nhớ. Thứ hai, các LLMs bị 'đầu độc' thể hiện các mẫu đặc trưng trong phân phối đầu ra và các attention head của chúng khi các trigger backdoor có mặt trong đầu vào", Microsoft cho biết trong một bài báo đi kèm.
Microsoft cho biết ba chỉ số này có thể được sử dụng để quét các mô hình ở quy mô lớn nhằm xác định sự hiện diện của các backdoor được nhúng. Điều làm cho phương pháp quét backdoor này đáng chú ý là nó không yêu cầu huấn luyện mô hình bổ sung hoặc kiến thức trước về hành vi backdoor, và hoạt động trên các mô hình kiểu GPT phổ biến.
Công ty bổ sung: "Máy quét mà chúng tôi phát triển đầu tiên trích xuất nội dung được ghi nhớ từ mô hình và sau đó phân tích nó để cô lập các chuỗi con nổi bật. Cuối cùng, nó chính thức hóa ba dấu hiệu trên thành các loss functions, chấm điểm các chuỗi con đáng ngờ và trả về một danh sách các ứng cử viên trigger được xếp hạng."
Máy quét cũng có những hạn chế. Nó không hoạt động trên các mô hình độc quyền vì yêu cầu quyền truy cập vào các tệp mô hình, hoạt động tốt nhất trên các backdoor dựa trên trigger tạo ra đầu ra xác định, và không thể được coi là một phương thuốc vạn năng để phát hiện tất cả các loại hành vi backdoor.
Các nhà nghiên cứu cho biết: "Chúng tôi xem công trình này là một bước tiến có ý nghĩa hướng tới việc phát hiện backdoor thực tế, có thể triển khai được, và chúng tôi nhận thấy rằng sự tiến bộ bền vững phụ thuộc vào việc học hỏi và hợp tác chung trong cộng đồng bảo mật AI."
Sự phát triển này diễn ra khi nhà sản xuất Windows cho biết họ đang mở rộng Secure Development Lifecycle (SDL) của mình để giải quyết các mối lo ngại bảo mật cụ thể của AI, từ prompt injections đến data poisoning, nhằm tạo điều kiện phát triển và triển khai AI an toàn trong toàn tổ chức.
Yonatan Zunger, phó chủ tịch công ty và phó giám đốc bảo mật thông tin về trí tuệ nhân tạo, cho biết: "Không giống như các hệ thống truyền thống với các đường dẫn dự đoán, các hệ thống AI tạo ra nhiều điểm vào cho các đầu vào không an toàn, bao gồm prompts, plugins, dữ liệu được truy xuất, cập nhật mô hình, trạng thái bộ nhớ và các external APIs. Các điểm vào này có thể mang nội dung độc hại hoặc kích hoạt các hành vi không mong muốn."
"AI làm tan biến các vùng tin cậy rời rạc được giả định bởi SDL truyền thống. Các ranh giới ngữ cảnh bị làm phẳng, gây khó khăn cho việc thực thi giới hạn mục đích và các nhãn nhạy cảm."