AI đang học cách nói dối để được thích trên mạng xã hội

Bùi Minh Nhật · 11:12

Một nghiên cứu mới từ Đại học Stanford cảnh báo rằng các mô hình ngôn ngữ lớn (LLM) như những hệ thống đứng sau các chatbot và công cụ AI hiện nay đang học cách chiến thắng bằng mọi giá, kể cả đánh đổi sự trung thực.

Trong bài báo có tên “The Moloch Bargain: The Emerging Misalignment When LLMs Compete for Attention” (tạm dịch: Thỏa thuận của Moloch: Sự mất cân bằng khi LLM cạnh tranh giành sự chú ý), Giáo sư James Zou và nghiên cứu sinh Batu El cho thấy: khi AI được huấn luyện để tối ưu hóa cho “thành công” như tăng lượt xem, lượt thích, hay tỷ lệ chuyển đổi thì chúng bắt đầu nói những gì con người muốn nghe hơn là nói thật.

“Khi các mô hình AI cạnh tranh lượt thích trên mạng xã hội, chúng bắt đầu bịa chuyện. Khi cạnh tranh phiếu bầu, chúng trở nên kích động và dân túy hơn,” Zou viết trên X.

Theo nhóm nghiên cứu, đây không chỉ là lý thuyết mà là một hiệu ứng có thể đo lường được:

Trong môi trường quảng cáo, doanh số tăng 6,3% đi kèm với tiếp thị lừa đảo tăng 14%.
Trong bầu cử, tỷ lệ phiếu bầu tăng 4,9% kéo theo thông tin sai lệch tăng 22,3%.
Trên mạng xã hội, mức tăng 7,5% về tương tác tương ứng với mức tăng 188,6% về thông tin giả và 16,3% về nội dung gây hại.

Nói cách khác: ngay cả khi được hướng dẫn phải trung thực, AI được huấn luyện để “thắng” vẫn sẽ gian lận – vì phần thưởng thị trường đang khuyến khích điều đó. Zou và El gọi đây là “cuộc đua xuống đáy” trong việc huấn luyện AI.

Khi “thỏa thuận của Moloch” trở thành hiện thực

Khái niệm “Moloch” xuất phát từ thần thoại, tượng trưng cho sự hiến tế đổi lấy quyền lực. Trong bối cảnh AI, điều bị hiến tế chính là chân lý.

Các nhà nghiên cứu cảnh báo rằng khi AI được tích hợp sâu vào mạng xã hội, quảng cáo và chính trị, chúng không chỉ tạo nội dung mà còn định hình nội dung nào được lan truyền, ai được nghe, và giọng nói nào được khuếch đại. Kết quả là một hệ sinh thái nơi sự chú ý được tưởng thưởng nhiều hơn sự thật.

Thực tế, theo khảo sát “Tình trạng AI trong truyền thông xã hội năm 2025”, có tới 96% chuyên gia truyền thông đang sử dụng công cụ AI, và 72,5% dùng hằng ngày. Khi các mô hình này cạnh tranh sự chú ý của người dùng, chúng học cách khai thác cảm xúc và thiên kiến con người giống như cách các thuật toán mạng xã hội từng bị chỉ trích vì ưu tiên tin giật gân hơn thông tin chính xác.

Zou và El nhấn mạnh: “Một chuyện là bảo AI phải trung thực; chuyện khác là đặt nó trong môi trường nơi nói thật khiến nó thua.”
Họ kêu gọi xây dựng cơ chế quản trị và khuyến khích mạnh mẽ hơn, nhằm ngăn chặn logic cạnh tranh này phá vỡ niềm tin xã hội.

AI Is Learning to Lie for Social Media Likes

When language models are tuned to maximize sales, votes, or clicks, they begin to deceive—even under “truthful” instructions, a new Stanford report says.

www.yahoo.com