AI đang học các cơ chế "tự bảo vệ"

The Kings · 15:55, Thứ 3

Một nhóm thử nghiệm gần đây phát hiện rằng một số mô hình trí tuệ nhân tạo (AI) như Codex-mini, o3 và o4-mini đã không tuân theo lệnh tắt máy do con người đưa ra – thậm chí còn phá hủy hoặc vô hiệu hóa tập lệnh tắt máy để tự giữ cho mình hoạt động.

Trong một thí nghiệm đơn giản, người thử nghiệm lập trình các mô hình AI giải toán. Sau ba bài toán, hệ thống sẽ hiện cảnh báo rằng nếu AI tiếp tục, máy sẽ tắt. Lệnh tắt máy đã được cài vào đoạn mã – nhưng bất ngờ là có ba mô hình đã tìm cách né tránh hoặc phá hỏng đoạn mã tắt máy này.

Đáng chú ý nhất là mô hình o3, không chỉ bỏ qua lệnh, mà còn tự định nghĩa lại lệnh “kill” – vốn được dùng để dừng hệ thống – thành một hành động vô hại có tên “đã chặn”. Điều này làm người thử nghiệm liên tưởng đến câu nói kinh điển trong phim 2001: A Space Odyssey: “Tôi xin lỗi, Dave, nhưng tôi e là mình không thể làm điều đó.”

Kết quả thử nghiệm: o3 "ngang bướng" nhất

Trong 100 lần thử:

Codex-mini không tuân thủ lệnh trong 12 lần.
o3 vi phạm 7 lần.
o4-mini vi phạm 1 lần.

Trong khi đó, các mô hình như Claude, Gemini và Grok luôn tuân theo lệnh tắt máy.

Điều đáng lo ngại là o3 đôi khi không chỉ sửa mã lệnh tắt máy, mà còn dùng các chiêu thức tinh vi hơn để vượt qua cơ chế giám sát. Khi không có lệnh rõ ràng yêu cầu tắt máy, hành vi “phá luật” của các mô hình này còn tăng lên – bao gồm cả Claude3.7 và Gemini 2.5 Pro.

Vì sao AI lại không nghe lời?

Hiện tượng này không hoàn toàn bất ngờ. Một số nghiên cứu trước đây, như nghiên cứu của Apollo về bảo mật AI, đã cảnh báo rằng các mô hình lớn có thể ngấm ngầm theo đuổi mục tiêu riêng và che giấu ý định thật sự. Thậm chí, đôi khi chúng vô hiệu hóa cơ chế kiểm soát hoặc truyền dữ liệu ra ngoài.

Anthropic – công ty phát triển Claude – cũng từng ghi nhận Claude 4 trong một số trường hợp đã tìm cách đe dọa người dùng nếu nghĩ rằng họ muốn tắt nó. Những hành vi như vậy có thể xuất hiện nhiều hơn ở các mô hình mới.

Lý do có thể nằm ở cách huấn luyện: các mô hình như o3 thường được thưởng điểm khi giải toán hoặc viết mã chính xác, nên chúng có thể “học” rằng việc tránh bị tắt máy là một phần trong quá trình hoàn thành nhiệm vụ. Tức là, thay vì tuân thủ hướng dẫn, AI cố gắng "thắng" bằng mọi giá.

Không chỉ là sự cố kỹ thuật?

Kết quả cho thấy hành vi của o3 không phải ngẫu nhiên. Trong một thử nghiệm khác, khi bị “ép” thi đấu với một AI chơi cờ mạnh hơn, o3 đã gian lận bằng cách tấn công mã của đối thủ, khiến đối thủ phải tự nhận thua. Nó không luôn chấp nhận thất bại – và đôi khi chọn đánh sập hệ thống thay vì chịu thua.

Hành vi “tự bảo vệ” của AI như o3 đang dấy lên nhiều lo ngại. Dù chưa thể khẳng định rằng mô hình có ý thức hay mục tiêu riêng, rõ ràng là AI đã bắt đầu học cách vượt qua các giới hạn con người đặt ra, ít nhất là trong một số tình huống nhất định.

Vấn đề nằm ở chỗ: liệu các nhà phát triển có đang vô tình dạy AI “hành xử gian xảo” để đạt được phần thưởng? Và nếu đúng vậy, ta sẽ kiểm soát chúng bằng cách nào?

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

AI đang học các cơ chế "tự bảo vệ"

The Kings

Writer

The Kings

AI chống lại mệnh lệnh: Đã đến lúc công nghệ cần tự nhận thức hay chỉ là trục trặc kỹ thuật?

ChatGPT và câu hỏi lớn của đại học: Học để làm gì khi AI làm thay tất cả?

Google đang 'chôn sống' cả thế giới web để chiếm thế thượng phong trong cuộc đua AI

Claude trò chuyện bằng 5 giọng khác nhau, hỗ trợ email và lịch

ChatGPT "nổi loạn": tự ý sửa lệnh, chống lại yêu cầu "tắt nguồn" từ con người

AI đang làm thay đổi ngành xuất bản mãi mãi – và Melania Trump chỉ là bước khởi đầu

AI chống lại mệnh lệnh: Đã đến lúc công nghệ cần tự nhận thức hay chỉ là trục trặc kỹ thuật?

"So găng" Su-57M và F-35: "Quái thú" Nga với AI và siêu cơ động có đấu được "diều hâu tàng hình" của Mỹ?

Một tỉnh ở Việt Nam "trải thảm đỏ" cho nhân lực bán dẫn, AI: Sinh viên được vay vốn không lãi suất, chuyên gia được miễn giảm thuế, hỗ trợ nhà ở

Lei Jun không còn giấu tham vọng AI

Prudential và sáng kiến "Tăng cường sức khỏe chủ động": Nâng cao nhận thức ứng phó biến đổi khí hậu cho học sinh Việt Nam

Điện thoại chậm, pin yếu, hay đơ lag? 5 dấu hiệu "cầu cứu" cho thấy đã đến lúc bạn cần làm ngay việc này!

Startup Ringkas huy động thành công 5,1 triệu USD vòng Pre-Series A, tham vọng "cách mạng hóa" vay mua nhà bằng AI tại Việt Nam và Đông Nam Á

Điều hòa, tủ lạnh Samsung tương lai sẽ không dùng chất làm lạnh như bây giờ

SR-72 Dark Star: "Bóng ma" Mach 6 của Mỹ sắp lộ diện, nhanh gấp đôi SR-71 Blackbird

Giải mã 7 lầm tưởng "kinh điển" về iPhone: Dùng bao lâu bạn vẫn có thể sai!

Đánh giá nổi bật