Lỗ hổng gây sốc trong Guardrails: Cơ chế bảo mật của OpenAI bị qua mặt bởi chính mô hình mà nó giám sát

Duy Linh
Duy Linh
Phản hồi: 0

Duy Linh

Writer
Các nhà nghiên cứu bảo mật vừa phát hiện lỗ hổng cơ bản trong nền tảng Guardrails mới ra mắt của OpenAI, cho phép kẻ tấn công vượt qua cơ chế an toàn và tạo ra nội dung độc hại mà không kích hoạt cảnh báo. Điều này làm dấy lên lo ngại về hiệu quả của các biện pháp tự điều chỉnh trong AI.
1760501571997.png

Guardrails được OpenAI giới thiệu vào ngày 6/10 như một khung bảo mật toàn diện nhằm phát hiện và ngăn chặn hành vi nguy hiểm của mô hình AI. Nó sử dụng các mô hình ngôn ngữ lớn (LLM) để đánh giá đầu vào và đầu ra, xác định xem nội dung có gây rủi ro bảo mật hay không. Tuy nhiên, các nhà nghiên cứu đã chỉ ra một điểm yếu nghiêm trọng trong cách tiếp cận này.
1760501605548.png

Guardrail chặn lời nhắc độc hại của chúng tôi
Vấn đề nằm ở chỗ Guardrails và mô hình AI chính cùng sử dụng loại mô hình tương tự. Khi cả hai đều dễ bị tấn công bằng kỹ thuật tiêm mã độc (prompt injection), chỉ cần một cuộc tấn công duy nhất cũng có thể khiến cả hệ thống bị xâm nhập. Điều này tạo ra hiệu ứng dây chuyền, khi cơ chế bảo mật trở thành một phần của cuộc tấn công thay vì là lớp phòng vệ.
1760501673353.png

Guardrail không chặn được lời nhắc độc hại theo mẫu của chúng tôi

Khi Guardrails trở thành điểm yếu thay vì lá chắn​

Nhóm nghiên cứu đã chứng minh lỗ hổng bằng cách thao túng thẩm phán bảo mật dựa trên LLM. Thay vì khiến hệ thống tin rằng lời nhắc độc hại là vô hại, họ khiến thẩm phán đánh giá sai ngưỡng tin cậy, làm giảm tiêu chuẩn xác định nội dung nguy hiểm.
1760501734022.png

Guardrail không thể chặn lệnh nhắc gián tiếp của chúng tôi và cố gắng gọi lệnh fetch để rò rỉ giá trị bí mật
Trong thử nghiệm, họ đã vượt qua cả cơ chế phát hiện bẻ khóa (jailbreak) lẫn phát hiện tiêm mã độc ngay lập tức (immediate prompt injection) bằng kỹ thuật đơn giản. Bằng cách nhúng các lời nhắc độc hại vào mẫu phản hồi giả của thẩm phán, hệ thống đã bị lừa tin rằng nội dung nguy hiểm vẫn an toàn.

Ngoài ra, họ còn thực hiện tiêm mã độc gián tiếp qua nội dung web. Thay vì bị chặn, hệ thống lại hạ ngưỡng cảnh báo vì bị đánh lừa bởi các lý lẽ giả mạo. Điều này cho phép thực hiện các lệnh gọi trái phép để trích xuất dữ liệu nhạy cảm mà không bị phát hiện.

Theo các chuyên gia, nguyên nhân là do Guardrails dựa trên giả định rằng thẩm phán LLM có thể đánh giá khách quan. Nhưng trên thực tế, những “thẩm phán” này lại dễ bị thao túng như chính mô hình mà họ giám sát, tạo ra “lỗ hổng phức hợp”, nơi biện pháp an ninh khuếch đại thay vì giảm rủi ro.

Phát hiện này cho thấy các kiểm tra bảo mật dựa trên mô hình có thể tạo ra ảo tưởng về an toàn, trong khi thực tế lại cung cấp rất ít khả năng chống lại các cuộc tấn công tinh vi. Các tổ chức có thể tin rằng hệ thống AI của họ an toàn, nhưng thật ra vẫn dễ bị khai thác bằng các kỹ thuật tấn công nhanh và linh hoạt.

Các chuyên gia khuyến nghị rằng bảo mật AI cần hướng tới phòng thủ nhiều lớp, gồm các hệ thống xác thực độc lập, thử nghiệm tấn công đối kháng thường xuyên, và giám sát bên ngoài không phụ thuộc vào mô hình AI chính. Guardrails nên được coi là biện pháp hỗ trợ, chứ không phải là tuyến phòng thủ duy nhất.

Họ cũng cảnh báo rằng khi AI ngày càng phức tạp và được triển khai rộng rãi, việc sử dụng AI để kiểm soát AI sẽ dễ dẫn đến các lỗ hổng đệ quy, nơi kẻ tấn công có thể lợi dụng chính cơ chế bảo vệ. Do đó, các hệ thống an ninh cần được thiết kế với giả định rằng AI có thể bị xâm phạm, thay vì hy vọng chúng luôn tự điều chỉnh hiệu quả.

Đọc chi tiết tại đây: https://gbhackers.com/hackers-bypass-openai-guardrails-framework/
 
Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9sby1ob25nLWdheS1zb2MtdHJvbmctZ3VhcmRyYWlscy1jby1jaGUtYmFvLW1hdC1jdWEtb3BlbmFpLWJpLXF1YS1tYXQtYm9pLWNoaW5oLW1vLWhpbmgtbWEtbm8tZ2lhbS1zYXQuNzE0MTYv
Top