Các lỗ hổng trong Picklescan cho phép mô hình PyTorch độc hại né tránh quét và thực thi mã

Ba lỗ hổng bảo mật nghiêm trọng đã được công bố trong tiện ích mã nguồn mở Picklescan, có thể cho phép các tác nhân độc hại thực thi mã tùy ý bằng cách tải các mô hình PyTorch không đáng tin cậy, qua đó vô hiệu hóa các biện pháp bảo vệ của công cụ này. Picklescan, được phát triển và duy trì bởi Matthieu Maitre (@mmaitre314), là một máy quét bảo mật được thiết kế để phân tích các tệp Python pickle và phát hiện các import hoặc lệnh gọi hàm đáng ngờ.
Mô hình PyTorch và Picklescan
Hình ảnh minh họa

Ba lỗ hổng bảo mật nghiêm trọng đã được công bố trong tiện ích mã nguồn mở Picklescan, có thể cho phép các tác nhân độc hại thực thi mã tùy ý bằng cách tải các mô hình PyTorch không đáng tin cậy, qua đó vô hiệu hóa các biện pháp bảo vệ của công cụ này.

Picklescan, được phát triển và duy trì bởi Matthieu Maitre (@mmaitre314), là một máy quét bảo mật được thiết kế để phân tích các tệp Python pickle và phát hiện các import hoặc lệnh gọi hàm đáng ngờ trước khi chúng được thực thi. Pickle là một định dạng serialization được sử dụng rộng rãi trong machine learning, bao gồm cả PyTorch, vốn sử dụng định dạng này để lưu và tải các mô hình.

Tuy nhiên, các tệp pickle cũng tiềm ẩn một rủi ro bảo mật rất lớn, vì chúng có thể được sử dụng để tự động kích hoạt việc thực thi mã Python tùy ý khi được tải. Điều này yêu cầu người dùng và tổ chức phải tải các mô hình đáng tin cậy, hoặc tải trọng số mô hình từ TensorFlow và Flax.

Các vấn đề được JFrog phát hiện về cơ bản cho phép bỏ qua máy quét, trình bày các tệp mô hình đã quét là an toàn và kích hoạt mã độc được thực thi, điều này có thể mở đường cho một supply chain attack.

"Mỗi lỗ hổng được phát hiện cho phép kẻ tấn công né tránh khả năng phát hiện mã độc của PickleScan và có khả năng thực hiện một supply chain attack quy mô lớn bằng cách phân phối các mô hình ML độc hại có chứa mã độc không thể phát hiện," nhà nghiên cứu bảo mật David Cohen cho biết.

Picklescan, về cốt lõi, hoạt động bằng cách kiểm tra các tệp pickle ở cấp độ bytecode và đối chiếu kết quả với một blocklist các import và hoạt động nguy hiểm đã biết để gắn cờ các hành vi tương tự. Cách tiếp cận này, trái ngược với allowlisting, cũng có nghĩa là nó ngăn các công cụ phát hiện bất kỳ attack vector mới nào và yêu cầu các nhà phát triển phải xem xét tất cả các hành vi độc hại có thể xảy ra.

Mô hình PoC Picklescan
Hình ảnh minh họa về PoC

Các lỗ hổng được xác định như sau:

  • CVE-2025-10155 (điểm CVSS: 9.3/7.8) - Một lỗ hổng bypass tiện ích mở rộng tệp có thể được sử dụng để vô hiệu hóa máy quét và tải mô hình khi cung cấp một tệp pickle tiêu chuẩn với tiện ích mở rộng liên quan đến PyTorch như .bin hoặc .pt.
  • CVE-2025-10156 (điểm CVSS: 9.3/7.5) - Một lỗ hổng bypass có thể được sử dụng để tắt tính năng quét kho lưu trữ ZIP bằng cách đưa vào lỗi Cyclic Redundancy Check (CRC).
  • CVE-2025-10157 (điểm CVSS: 9.3/8.3) - Một lỗ hổng bypass có thể được sử dụng để vô hiệu hóa kiểm tra globals không an toàn của Picklescan, dẫn đến thực thi mã tùy ý bằng cách vượt qua một blocklist các import nguy hiểm.

Khai thác thành công các lỗ hổng nêu trên có thể cho phép kẻ tấn công che giấu các payload pickle độc hại trong các tệp sử dụng tiện ích mở rộng PyTorch phổ biến, cố tình đưa lỗi CRC vào các kho lưu trữ ZIP chứa mô hình độc hại hoặc tạo các mô hình PyTorch độc hại với các payload pickle nhúng để bỏ qua máy quét.

Sau khi được tiết lộ một cách có trách nhiệm vào ngày 29 tháng 6 năm 2025, ba lỗ hổng này đã được khắc phục trong Picklescan phiên bản 0.0.31 phát hành vào ngày 9 tháng 9.

Những phát hiện này minh họa một số vấn đề hệ thống chính, bao gồm sự phụ thuộc vào một công cụ quét duy nhất, sự khác biệt trong hành vi xử lý tệp giữa các công cụ bảo mật và PyTorch, từ đó khiến các kiến trúc bảo mật dễ bị tấn công.

"Các thư viện AI như PyTorch ngày càng trở nên phức tạp, giới thiệu các tính năng mới, định dạng mô hình và các đường dẫn thực thi nhanh hơn khả năng thích ứng của các công cụ quét bảo mật," Cohen cho biết. "Khoảng cách ngày càng lớn giữa đổi mới và bảo vệ này khiến các tổ chức phải đối mặt với các mối đe dọa mới nổi mà các công cụ thông thường đơn giản là không được thiết kế để dự đoán."

"Để thu hẹp khoảng cách này đòi hỏi một proxy bảo mật dựa trên nghiên cứu cho các mô hình AI, liên tục được thông tin bởi các chuyên gia có tư duy như cả kẻ tấn công và người bảo vệ. Bằng cách tích cực phân tích các mô hình mới, theo dõi các bản cập nhật thư viện và khám phá các kỹ thuật khai thác mới, cách tiếp cận này mang lại sự bảo vệ thích ứng, theo định hướng thông minh chống lại các lỗ hổng quan trọng nhất."