Chế độ Lockdown mới của ChatGPT giới hạn các công cụ có thể gây rò rỉ dữ liệu

OpenAI đã bắt đầu triển khai chế độ Lockdown Mode mới cho ChatGPT nhằm giảm thiểu rủi ro rò rỉ dữ liệu (data exfiltration) từ các cuộc tấn công prompt injection. Tính năng này được thiết kế dành cho các cá nhân và tổ chức xử lý dữ liệu nhạy cảm, yêu cầu các đảm bảo bảo mật nghiêm ngặt hơn. Lockdown Mode hiện khả dụng cho người dùng đăng nhập trên các gói Free, Go, Plus, Pro và các gói Business.

ChatGPT Lockdown Mode — OpenAI ra mắt chế độ Lockdown Mode mới để bảo vệ người dùng trước các cuộc tấn công prompt injection.

OpenAI đã bắt đầu triển khai chế độ Lockdown Mode mới cho ChatGPT đối với các tài khoản cá nhân đủ điều kiện nhằm giảm thiểu rủi ro rò rỉ dữ liệu (data exfiltration) phát sinh từ các cuộc tấn công prompt injection.

Tính năng này chủ yếu được thiết kế cho các cá nhân và tổ chức xử lý dữ liệu nhạy cảm và yêu cầu các đảm bảo bảo vệ nghiêm ngặt hơn. Lockdown Mode hiện có sẵn cho người dùng đã đăng nhập trên các gói Free, Go, Plus, Pro và các gói ChatGPT Business tự phục vụ.

"Lockdown Mode là một thiết lập bảo mật nâng cao tùy chọn, giúp giới hạn nhiều công cụ và khả năng trong các sản phẩm của OpenAI vốn có thể kết nối với web hoặc các dịch vụ bên ngoài," OpenAI cho biết.

"Nó được thiết kế để giảm rủi ro rò rỉ dữ liệu từ các cuộc tấn công prompt injection bằng cách hạn chế các yêu cầu mạng gửi đi (outbound network requests), với cái giá là phải vô hiệu hóa hoặc hạn chế một số tính năng hữu ích."

Các biện pháp bảo vệ này nhằm mục đích thắt chặt bề mặt tấn công (attack surface) chống lại prompt injection, một vấn đề "tiền tuyến" tiếp tục gây ảnh hưởng đến tất cả các mô hình ngôn ngữ lớn (LLMs).

Cụ thể, chúng được xây dựng dựa trên cơ chế sandboxing và các kiểm soát hiện có để chống lại các cơ chế rò rỉ dữ liệu dựa trên URL nhằm giới hạn các yêu cầu mạng ra bên ngoài, vốn có khả năng truyền dữ liệu nhạy cảm đến cơ sở hạ tầng do kẻ tấn công kiểm soát.

Mục tiêu và các tính năng bị hạn chế

Ý tưởng của tính năng này không phải là để ngăn chặn các cuộc tấn công prompt injection xảy ra. Nó cũng không thay đổi cách thức hoạt động của bộ nhớ (memory) hay việc tải tệp lên, hoặc khả năng chia sẻ cuộc hội thoại. Thay vào đó, mục tiêu là loại bỏ các con đường tiềm ẩn mà qua đó dữ liệu có thể bị rò rỉ. Vì mục đích đó, Lockdown Mode sẽ vô hiệu hóa các tính năng sau:

Duyệt web trực tiếp (Live web browsing): Bị giới hạn chỉ truy cập vào các nội dung đã được lưu trong bộ nhớ cache.
Hỗ trợ hình ảnh (Image support): Dùng để hiển thị hình ảnh trong các phản hồi thông thường hoặc lấy hình ảnh từ web.
Nghiên cứu chuyên sâu (Deep research).
Chế độ Agent (Agent mode).
Kết nối mạng Canvas (Canvas networking): Ngăn người dùng phê duyệt mã do Canvas tạo ra để truy cập mạng.
Tải tệp xuống (File downloads): Chặn việc tải xuống các tệp để phân tích dữ liệu.

Lưu ý rằng tính năng này không "dành cho tất cả mọi người", OpenAI cũng chỉ ra rằng không thể sử dụng đồng thời cả Lockdown Mode và Developer Mode; việc bật chế độ này sẽ vô hiệu hóa chế độ kia.

"Lockdown Mode được thiết kế để giảm đáng kể rủi ro rò rỉ dữ liệu dựa trên prompt injection trong ChatGPT và các sản phẩm OpenAI được hỗ trợ, nhưng nó không đảm bảo rằng việc rò rỉ dữ liệu không thể xảy ra," công ty cho biết. "Rủi ro vẫn có thể tồn tại thông qua các ứng dụng (Apps) đã bật, các tổ hợp khả năng chưa lường trước được hoặc các kỹ thuật mới được phát hiện."

"Lockdown Mode cũng không ngăn chặn tất cả các tác động khác của tấn công prompt injection. Ví dụ, một chỉ dẫn độc hại ẩn trong một tệp được tải lên vẫn có thể ảnh hưởng đến hành vi của ChatGPT và gây ra câu trả lời sai."

Quản lý phiên hoạt động của tài khoản

Cùng với sự phát triển này, OpenAI cũng đã ra mắt một tính năng quản lý tài khoản mới. Tính năng này cho phép người dùng xem xét các phiên ChatGPT đang hoạt động và đăng xuất khỏi từng phiên hoặc tất cả các phiên nếu phát hiện dấu hiệu hoạt động tài khoản trái phép. Danh sách các phiên bao gồm thông tin về thiết bị, ứng dụng được sử dụng, vị trí ước tính, ngày giờ đăng nhập, thiết bị có được tin cậy hay không và đó có phải là phiên hiện tại hay không.