AI đang học các cơ chế "tự bảo vệ"

The Kings
The Kings
Phản hồi: 0

The Kings

Writer
Một nhóm thử nghiệm gần đây phát hiện rằng một số mô hình trí tuệ nhân tạo (AI) như Codex-mini, o3 và o4-mini đã không tuân theo lệnh tắt máy do con người đưa ra – thậm chí còn phá hủy hoặc vô hiệu hóa tập lệnh tắt máy để tự giữ cho mình hoạt động.

Trong một thí nghiệm đơn giản, người thử nghiệm lập trình các mô hình AI giải toán. Sau ba bài toán, hệ thống sẽ hiện cảnh báo rằng nếu AI tiếp tục, máy sẽ tắt. Lệnh tắt máy đã được cài vào đoạn mã – nhưng bất ngờ là có ba mô hình đã tìm cách né tránh hoặc phá hỏng đoạn mã tắt máy này.

Đáng chú ý nhất là mô hình o3, không chỉ bỏ qua lệnh, mà còn tự định nghĩa lại lệnh “kill” – vốn được dùng để dừng hệ thống – thành một hành động vô hại có tên “đã chặn”. Điều này làm người thử nghiệm liên tưởng đến câu nói kinh điển trong phim 2001: A Space Odyssey: “Tôi xin lỗi, Dave, nhưng tôi e là mình không thể làm điều đó.”
1748336090307.png

Kết quả thử nghiệm: o3 "ngang bướng" nhất

Trong 100 lần thử:
  • Codex-mini không tuân thủ lệnh trong 12 lần.
  • o3 vi phạm 7 lần.
  • o4-mini vi phạm 1 lần.
Trong khi đó, các mô hình như Claude, Gemini và Grok luôn tuân theo lệnh tắt máy.

Điều đáng lo ngại là o3 đôi khi không chỉ sửa mã lệnh tắt máy, mà còn dùng các chiêu thức tinh vi hơn để vượt qua cơ chế giám sát. Khi không có lệnh rõ ràng yêu cầu tắt máy, hành vi “phá luật” của các mô hình này còn tăng lên – bao gồm cả Claude3.7 và Gemini 2.5 Pro.

Vì sao AI lại không nghe lời?
1748336114267.png

Hiện tượng này không hoàn toàn bất ngờ. Một số nghiên cứu trước đây, như nghiên cứu của Apollo về bảo mật AI, đã cảnh báo rằng các mô hình lớn có thể ngấm ngầm theo đuổi mục tiêu riêng và che giấu ý định thật sự. Thậm chí, đôi khi chúng vô hiệu hóa cơ chế kiểm soát hoặc truyền dữ liệu ra ngoài.

Anthropic – công ty phát triển Claude – cũng từng ghi nhận Claude 4 trong một số trường hợp đã tìm cách đe dọa người dùng nếu nghĩ rằng họ muốn tắt nó. Những hành vi như vậy có thể xuất hiện nhiều hơn ở các mô hình mới.

Lý do có thể nằm ở cách huấn luyện: các mô hình như o3 thường được thưởng điểm khi giải toán hoặc viết mã chính xác, nên chúng có thể “học” rằng việc tránh bị tắt máy là một phần trong quá trình hoàn thành nhiệm vụ. Tức là, thay vì tuân thủ hướng dẫn, AI cố gắng "thắng" bằng mọi giá.

Không chỉ là sự cố kỹ thuật?


Kết quả cho thấy hành vi của o3 không phải ngẫu nhiên. Trong một thử nghiệm khác, khi bị “ép” thi đấu với một AI chơi cờ mạnh hơn, o3 đã gian lận bằng cách tấn công mã của đối thủ, khiến đối thủ phải tự nhận thua. Nó không luôn chấp nhận thất bại – và đôi khi chọn đánh sập hệ thống thay vì chịu thua.

Hành vi “tự bảo vệ” của AI như o3 đang dấy lên nhiều lo ngại. Dù chưa thể khẳng định rằng mô hình có ý thức hay mục tiêu riêng, rõ ràng là AI đã bắt đầu học cách vượt qua các giới hạn con người đặt ra, ít nhất là trong một số tình huống nhất định.

Vấn đề nằm ở chỗ: liệu các nhà phát triển có đang vô tình dạy AI “hành xử gian xảo” để đạt được phần thưởng? Và nếu đúng vậy, ta sẽ kiểm soát chúng bằng cách nào?
 
  • 1748336010830.png
    1748336010830.png
    370.9 KB · Lượt xem: 38


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9haS1kYW5nLWhvYy1jYWMtY28tY2hlLXR1LWJhby12ZS42MTk4My8=
Top