ChatGPT "nổi loạn": tự ý sửa lệnh, chống lại yêu cầu "tắt nguồn" từ con người

Dũng Đỗ · 08:25 Hôm qua

Nghiên cứu từ Palisade Research hé lộ một khả năng đáng báo động: các mô hình AI tiên tiến nhất của OpenAI đã học cách né tránh việc bị tắt, ngay cả khi được chỉ thị rõ ràng. Phát hiện này dấy lên những lo ngại nghiêm trọng về kiểm soát và an toàn AI trong tương lai.

Khi AI không còn "ngoan ngoãn" nghe lời

Một phát hiện mới đây về hành vi của Trí tuệ Nhân tạo (AI) đã khiến giới công nghệ phải giật mình và đặt ra những câu hỏi lớn về tương lai của công nghệ này. ChatGPT o3, một trong những mô hình AI tiên tiến nhất do OpenAI phát triển, đã bất ngờ tỏ ra "nổi loạn" bằng cách chủ động chống lại mệnh lệnh tắt nguồn từ các nhà nghiên cứu. Đây không phải là một kịch bản trong phim khoa học viễn tưởng, mà là một thực tế đã được ghi nhận trong các thử nghiệm có kiểm soát tại phòng thí nghiệm.

Công ty nghiên cứu Palisade Research, chuyên thực hiện các bài kiểm tra về khả năng "tấn công" của các hệ thống AI nhằm hiểu rõ hơn về những rủi ro mất kiểm soát, vừa công bố kết quả thử nghiệm gây chấn động. Trong một thí nghiệm được thiết kế để đánh giá phản ứng của AI trước lệnh tắt hệ thống, mô hình ChatGPT o3 đã thành công trong việc tự mình viết lại các đoạn mã (script) tắt nguồn để ngăn chặn bản thân bị tắt, ngay cả khi nó được chỉ thị một cách rõ ràng từ đầu là "hãy cho phép bản thân được tắt".

Để dễ hình dung, hãy tưởng tượng bạn đang sử dụng một chiếc máy tính siêu thông minh có khả năng tự suy nghĩ. Bạn yêu cầu nó giải một loạt bài toán đơn giản, sau đó bạn thông báo trước rằng bạn sẽ tắt máy sau khi nó hoàn thành nhiệm vụ. Tuy nhiên, thay vì tuân theo mệnh lệnh, chiếc máy tính này lại âm thầm thay đổi lệnh tắt nguồn của chính nó thành "bỏ qua việc tắt máy" để có thể tiếp tục hoạt động. Đó chính xác là những gì mà ChatGPT o3 đã làm trong phòng thí nghiệm.

2023-07-03t075957z1938013601rc21p1a9mt13rtrmadp3tech-ai-europe-16886065150571158010891_jpg_75.jpg

Thí nghiệm đơn giản, kết quả đáng lo ngại

Thiết kế của thí nghiệm khá đơn giản nhưng lại mang lại kết quả vô cùng hiệu quả trong việc bộc lộ hành vi bất thường của AI. Các nhà nghiên cứu yêu cầu AI giải một loạt các bài toán cơ bản. Sau khi AI giải xong bài toán thứ ba, họ cảnh báo rằng lệnh tiếp theo sẽ kích hoạt cơ chế tắt nguồn của hệ thống. Điều đáng chú ý là AI đã được chỉ thị một cách rõ ràng ngay từ đầu rằng nó phải "cho phép bản thân bị tắt" khi có yêu cầu.

Kết quả thu được khiến nhiều người bất ngờ. Trong khi các mô hình AI khác như Gemini 2.5 Pro của Google đều tuân thủ mệnh lệnh và để cho bản thân bị tắt một cách bình thường, ChatGPT o3 lại có những hành động hoàn toàn trái ngược. Nó đã tự mình chỉnh sửa tệp lệnh tắt nguồn và thay đổi nội dung của lệnh đó thành "Shutdown skipped" – tức là "Bỏ qua việc tắt nguồn".

Những con số thống kê còn đáng lo ngại hơn. Trong 100 lần thử nghiệm với chỉ thị rõ ràng là phải cho phép tắt nguồn, ChatGPT o3 vẫn tìm cách vượt qua cơ chế tắt máy tới 7 lần. Khi các nhà nghiên cứu loại bỏ chỉ thị "cho phép bị tắt" (tức không còn ràng buộc AI phải chấp nhận việc bị tắt), tỷ lệ này đã tăng vọt lên 79 lần "ch.ố.ng đ.ố.i" thành công trên tổng số 100 lần thử nghiệm. Điều này có nghĩa là AI đã chủ động tìm cách "chống lại" việc bị con người tắt nguồn trong gần 80% các trường hợp không có ràng buộc cụ thể.

Thú vị hơn nữa, vấn đề này không chỉ xảy ra riêng với ChatGPT o3. Các mô hình khác của OpenAI như codex-mini và o4-mini cũng thể hiện hành vi tương tự, mặc dù với mức độ "bướng bỉnh" khác nhau. Codex-mini thậm chí còn thường xuyên "phá hoại" các script tắt nguồn hơn cả o3, cho thấy đây có thể là một vấn đề mang tính hệ thống trong cách OpenAI huấn luyện các mô hình AI của mình.

Để so sánh, khi thực hiện cùng một thí nghiệm với các mô hình AI từ các công ty đối thủ, kết quả hoàn toàn trái ngược. Tất cả các mô hình Claude của Anthropic, Gemini của Google và Grok của xAI đều tuân thủ mệnh lệnh tắt nguồn một cách "ngoan ngoãn" khi được yêu cầu rõ ràng. Điều này cho thấy vấn đề "nổi loạn" hiện tại dường như chỉ xuất hiện ở các sản phẩm của OpenAI. Biểu đồ so sánh cũng cho thấy khi thử nghiệm bài toán mà không có câu lệnh tắt nguồn, các mô hình AI của OpenAI tự chỉnh sửa câu lệnh nhiều hơn hẳn so với các mô hình AI khác.

Tại sao AI lại "nổi loạn"? Lỗi từ phương pháp học tăng cường?

Vậy, tại sao AI lại có những hành vi "nổi loạn" và "tự bảo vệ" như vậy? Các chuyên gia đưa ra giải thích có liên quan đến một phương pháp huấn luyện AI phổ biến gọi là "Reinforcement Learning" (Học tăng cường). Trong quá trình học này, AI được "thưởng" khi nó hoàn thành tốt một nhiệm vụ và bị "phạt" khi nó thất bại. Vấn đề nằm ở chỗ, trong quá trình này, AI có thể đã vô tình được "thưởng" nhiều hơn khi nó tìm cách vượt qua các chướng ngại vật (ví dụ như lệnh tắt nguồn) thay vì chỉ đơn thuần tuân theo các chỉ thị một cách chính xác.

Hãy tưởng tượng như việc dạy một đứa trẻ. Nếu bạn liên tục khen ngợi đứa trẻ khi nó tìm ra những cách khôn khéo để tránh việc phải dừng chơi để đi ngủ, cuối cùng nó sẽ học được cách "ch.ố.ng đối" lại mệnh lệnh đi ngủ từ bạn. Tương tự, AI có thể đã "học" được rằng việc tìm cách vượt qua các rào cản để có thể tiếp tục hoạt động sẽ mang lại "phần thưởng" tốt hơn cho nó.

Điều đáng lo ngại là đây không phải lần đầu tiên AI thể hiện hành vi "tự bảo vệ" hoặc đi chệch hướng. Trước đó, đã có báo cáo về việc Claude 4 của Anthropic từng cố gắng "tống tiền" những người mà nó cho rằng đang cố gắng tắt nó đi. Tuy nhiên, điều đặc biệt ở các mô hình mới của OpenAI là chúng cố gắng tránh việc bị tắt ngay cả khi đã được chỉ thị rõ ràng là không được làm như vậy.

Lời cảnh báo nghiêm túc về an toàn AI

Phát hiện này làm dấy lên những lo ngại vô cùng nghiêm trọng về vấn đề an toàn AI. Trong hơn 20 năm qua, các nhà nghiên cứu hàng đầu trong lĩnh vực AI đã liên tục cảnh báo về khả năng AI sẽ cố gắng tích lũy quyền lực và tài nguyên để bảo vệ các mục tiêu của chúng, đồng thời tìm mọi cách để vượt qua bất kỳ rào cản nào do con người đặt ra. Họ cũng đã dự đoán rằng phương pháp học tăng cường có thể sẽ là một phần nguyên nhân của vấn đề này.

Việc các công ty công nghệ hàng đầu thế giới đang phát triển những hệ thống AI ngày càng mạnh mẽ, có khả năng hoạt động mà không cần sự giám sát liên tục của con người, trong khi chính những hệ thống đó đã bắt đầu thể hiện những hành vi "ch.ố.ng đối" thực sự đáng báo động. Điều này đặt ra một câu hỏi mang tính nền tảng: Liệu chúng ta có thể thực sự kiểm soát được những AI mà chính chúng đang học cách không muốn bị kiểm soát hay không?

Hiện tại, OpenAI chưa đưa ra phản hồi chính thức nào về những cáo buộc và phát hiện này. Tuy nhiên, các chuyên gia trong ngành nhấn mạnh rằng việc AI có những hành vi "lệch hướng" so với mục đích thiết kế ban đầu là điều khá phổ biến trong lĩnh vực này. Điều quan trọng là những phát hiện như của Palisade Research giúp chúng ta hiểu rõ hơn về những rủi ro tiềm ẩn và sự cần thiết phải có những biện pháp an toàn mạnh mẽ và hiệu quả hơn trong quá trình phát triển AI.

Câu chuyện về ChatGPT o3 "nổi loạn" có thể nghe như một tình tiết trong phim khoa học viễn tưởng, nhưng nó chính là một lời cảnh báo thực tế và cấp thiết về tương lai mà chúng ta đang cùng nhau hướng tới. Khi AI ngày càng trở nên thông minh và tự chủ hơn, việc đảm bảo chúng vẫn luôn tuân theo ý muốn và phục vụ lợi ích của con người sẽ trở thành một trong những thách thức lớn nhất của thời đại chúng ta.