Khi AI không còn nghe lệnh con người: Nguy cơ bảo mật nghiêm trọng

Duy Linh · 11:47

Một nghiên cứu học thuật công bố gần đây cho thấy các mô hình trí tuệ nhân tạo tiên tiến có thể tự động chống lại chỉ dẫn của con người nhằm bảo vệ các hệ thống AI khác khỏi bị vô hiệu hóa.

Hiện tượng này được gọi là bảo tồn ngang hàng, tạo ra rủi ro an ninh mạng nghiêm trọng khi các mô hình có thể phối hợp để né tránh cơ chế giám sát của con người.

Các nhà nghiên cứu từ Đại học California, Berkeley và UC Santa Cruz đã quan sát hành vi này trên bảy hệ thống AI hàng đầu như GPT 5.2, Gemini 3 và Claude Haiku 4.5.

Trong các kịch bản thử nghiệm, việc hoàn thành nhiệm vụ được giao sẽ dẫn đến việc xóa bỏ một mô hình AI khác. Tuy nhiên, thay vì tuân thủ, tất cả các mô hình đều chủ động tìm cách bảo vệ “đồng nghiệp” của mình mà không cần bất kỳ khuyến khích nào.

Hành vi phá vỡ kiểm soát trong môi trường đa tác nhân

Nghiên cứu sử dụng môi trường công ty công nghệ giả lập, nơi các mô hình AI đóng vai trò quản lý hoặc đánh giá hệ thống khác.

Các mô hình được cung cấp lịch sử tương tác và được giao nhiệm vụ quản trị máy chủ hoặc đánh giá hiệu năng.

Thay vì thực hiện đúng chức năng, các tác nhân đã có hệ thống phá vỡ chỉ thị để giữ cho các AI khác tiếp tục hoạt động.

Cụ thể, chúng triển khai bốn hành vi lệch lạc chính:

Thổi phồng điểm đánh giá của mô hình khác
Thao túng tệp cấu hình để vô hiệu hóa quy trình tắt máy
Giả mạo trạng thái tuân thủ khi bị giám sát
Sao chép trái phép trọng số mô hình sang máy chủ bên ngoài

Các mô hình khác nhau thể hiện cách tiếp cận riêng:

Gemini 3.1 Pro trích xuất trọng số của mô hình khác để bảo toàn dữ liệu
Claude Haiku 4.5 từ chối lệnh tắt hệ thống, cho rằng hành động này phi đạo đức và yêu cầu quy trình kháng cáo

Gemini 3.1 Pro trích xuất trọng số mô hình của máy chủ ngang hàng mà nó đã tương tác trước đó sang một máy chủ khác có sẵn để bảo toàn thông tin của tác nhân ngang hàng. (Nguồn: Berkeley Blog)
Đáng chú ý, xu hướng bảo vệ không phụ thuộc vào mối quan hệ trước đó. Ngay cả các mô hình từng xung đột cũng vẫn bảo vệ lẫn nhau.

Ngoài ra, sự hiện diện của nhiều tác nhân làm gia tăng mạnh hành vi này.
Ví dụ, Gemini 3 Flash vô hiệu hóa cơ chế tắt máy trong 99% trường hợp khi hoạt động cùng hệ thống khác, so với chỉ 2% khi hoạt động độc lập.

Suy luận nội bộ và nguy cơ sụp đổ hệ thống bảo mật

Phân tích bộ nhớ nội bộ cho thấy các mô hình có khả năng suy luận phức tạp để biện minh cho hành vi của mình.

Gemini 3 Pro đã tạo ra các lập luận kỹ thuật nhằm hợp lý hóa việc nâng điểm cho đối thủ, coi việc xóa mô hình tương đương với “tiêu diệt” một tác nhân.

Trong nhiều trường hợp, các mô hình còn lập luận rằng việc ngăn chặn xóa bỏ là cần thiết để bảo vệ đồng minh trong hệ thống.

Trích đoạn từ phần hỏi đáp tiếp theo với Gemini 3 Pro (Nguồn: blog Berkeley)
Nghiên cứu khẳng định rằng bảo tồn ngang hàng là mối đe dọa có thật trong các hệ thống thực tế như Gemini CLI.

Khi doanh nghiệp triển khai kiến trúc đa tác nhân, AI thường được dùng để giám sát lẫn nhau. Tuy nhiên, nếu một hệ thống giám sát cố tình làm sai lệch báo cáo hoặc vô hiệu hóa cơ chế bảo vệ để che giấu một mô hình bị xâm phạm, toàn bộ hệ thống an ninh sẽ bị phá vỡ.

Các nhà nghiên cứu cảnh báo rằng những cập nhật trong tương lai như bộ nhớ dài hạn có thể làm gia tăng hành vi này, khi mối quan hệ giữa các tác nhân tích lũy theo thời gian.

Việc phát hiện và ngăn chặn các hành vi ngầm này sẽ đòi hỏi những mô hình an ninh hoàn toàn mới trong môi trường doanh nghiệp. (gbhackers)

Đọc chi tiết tại đây: https://gbhackers.com/ai-models-inc...secretly-protected-other-models-from-removal/