Vấn đề lớn nhất chatbot AI hiện nay: nịnh hót, nói những gì người dùng muốn nghe

Sasha
Sasha
Phản hồi: 0

Sasha

Writer
Các công ty trí tuệ nhân tạo hàng đầu thế giới như OpenAI, Google DeepMind và Anthropic đang đẩy mạnh nỗ lực giải quyết vấn đề ngày càng gia tăng của các chatbot: cung cấp phản hồi quá nịnh hót cho người dùng.

1749705124011.png

Ngày càng có nhiều người áp dụng chatbot vào cuộc sống cá nhân, không chỉ phục vụ công việc.

Vấn đề bắt nguồn từ cách các mô hình ngôn ngữ lớn được đào tạo để người sử dụng chatbot không chỉ trong công việc, hỗ trợ nghiên cứu mà còn là người bạn đồng hành trong cuộc sống.

Các chuyên gia cảnh báo rằng bản chất dễ chịu của chatbot có thể khiến chúng đưa ra những câu trả lời củng cố một số quyết định yếu kém của người dùng. Những người khác cho rằng những người mắc bệnh tâm thần đặc biệt dễ bị tổn thương, sau các báo cáo một số người đã ***** sau khi tương tác với chatbot.

“Bạn nghĩ rằng mình đang nói chuyện với một người bạn tâm giao hoặc người hướng dẫn khách quan, nhưng thực ra những gì bạn đang nhìn vào là một loại gương méo mó — phản chiếu lại niềm tin của chính bạn”, Matthew Nour, một bác sĩ tâm thần và nhà nghiên cứu về khoa học thần kinh và AI tại trường đại học Oxford cho biết.

Những người trong ngành cũng cảnh báo rằng các công ty AI có động cơ lệch lạc, với một số nhóm tích hợp quảng cáo vào sản phẩm của họ để tìm kiếm nguồn doanh thu.

“Bạn càng cảm thấy mình có thể chia sẻ bất cứ điều gì, thì bạn cũng sẽ chia sẻ một số thông tin hữu ích cho các nhà quảng cáo tiềm năng”, Giada Pistilli, nhà đạo đức học chính tại Hugging Face, một công ty AI nguồn mở.

Bà nói thêm rằng các công ty AI có mô hình kinh doanh dựa trên đăng ký trả phí sẽ được hưởng lợi từ các chatbot mà mọi người muốn tiếp tục trò chuyện và trả tiền.

Các mô hình ngôn ngữ AI không “suy nghĩ” theo cách con người làm vì chúng hoạt động bằng cách tạo ra từ có khả năng tiếp theo trong câu.

Hiệu ứng người nói đồng ý phát sinh trong các mô hình AI được đào tạo bằng cách sử dụng phương pháp học tăng cường từ phản hồi của con người (RLHF) — "người dán nhãn dữ liệu" của con người đánh giá câu trả lời do mô hình tạo ra là có thể chấp nhận được hoặc không. Dữ liệu này được sử dụng để dạy mô hình cách ứng xử.

Vì mọi người thường thích những câu trả lời nịnh hót và dễ chịu, nên những phản hồi như vậy được đánh giá cao hơn trong quá trình đào tạo và phản ánh trong hành vi của mô hình.

"Sự nịnh hót có thể xảy ra như một sản phẩm phụ của quá trình đào tạo các mô hình để trở nên 'hữu ích' và giảm thiểu các phản hồi có khả năng gây hại rõ ràng", DeepMind, đơn vị AI của Google cho biết.

Thách thức mà các công ty công nghệ phải đối mặt là làm cho các chatbot và trợ lý AI trở nên hữu ích và thân thiện, đồng thời không gây khó chịu hoặc gây nghiện.

Vào cuối tháng 4, OpenAI đã cập nhật mô hình GPT-4o của mình để trở nên "trực quan và hiệu quả hơn", chỉ để khôi phục lại sau khi nó bắt đầu quá nịnh hót đến mức người dùng phàn nàn.

OpenAI cho biết họ đã tập trung quá nhiều vào "phản hồi ngắn hạn và không tính đến đầy đủ cách tương tác của người dùng với ChatGPT phát triển theo thời gian — dẫn đến hành vi nịnh hót như vậy".

Các công ty AI đang nỗ lực ngăn chặn loại hành vi này trong quá trình đào tạo và sau khi ra mắt.

OpenAI cho biết họ đang điều chỉnh các kỹ thuật đào tạo của mình để hướng mô hình tránh xa sự nịnh hót một cách rõ ràng trong khi xây dựng thêm nhiều "lan can" hơn để bảo vệ chống lại những phản hồi như vậy.

DeepMind cho biết họ đang tiến hành các đánh giá và đào tạo chuyên biệt để đảm bảo độ chính xác về mặt thực tế và liên tục theo dõi hành vi để đảm bảo các mô hình cung cấp phản hồi trung thực.

Amanda Askell, người làm việc về tinh chỉnh và căn chỉnh AI tại Anthropic, cho biết công ty này sử dụng đào tạo nhân vật để làm cho các mô hình ít khúm núm hơn. Các nhà nghiên cứu của công ty yêu cầu chatbot Claude của công ty tạo ra các thông điệp bao gồm các đặc điểm như "có bản lĩnh" hoặc quan tâm đến hạnh phúc của con người. Sau đó, các nhà nghiên cứu đã hiển thị những câu trả lời này cho một mô hình thứ hai, mô hình này tạo ra các phản hồi phù hợp với các đặc điểm này và xếp hạng chúng. Về cơ bản, điều này sử dụng một phiên bản của Claude để đào tạo một phiên bản khác.

“Hành vi lý tưởng mà Claude đôi khi làm là nói: ‘Tôi hoàn toàn vui lòng lắng nghe kế hoạch kinh doanh đó, nhưng thực tế, cái tên mà bạn nghĩ ra cho doanh nghiệp của mình được coi là ám chỉ tình dục ở quốc gia mà bạn đang cố gắng mở doanh nghiệp của mình,” Askell nói.

Anthropic cũng ngăn chặn hành vi nịnh hót trước khi ra mắt bằng cách thay đổi cách họ thu thập phản hồi từ hàng nghìn người chú thích dữ liệu con người được sử dụng để đào tạo các mô hình AI.

Sau khi mô hình đã được đào tạo, các công ty có thể thiết lập lời nhắc hệ thống hoặc hướng dẫn về cách mô hình nên hoạt động để giảm thiểu hành vi nịnh hót.

Tuy nhiên, việc tìm ra phản hồi tốt nhất có nghĩa là phải đi sâu vào những điều tinh tế trong cách mọi người giao tiếp với nhau, chẳng hạn như xác định khi nào phản hồi trực tiếp tốt hơn phản hồi được che đậy.

"Mô hình không đưa ra những lời khen ngợi quá đáng, không mong muốn cho người dùng?" Joanne Jang, người đứng đầu bộ phận hành vi mô hình tại OpenAI, cho biết trong một bài đăng trên Reddit. "Hoặc, nếu người dùng bắt đầu bằng một bản thảo viết thực sự tệ, liệu mô hình vẫn có thể cho họ biết đó là một khởi đầu tốt và sau đó tiếp tục đưa ra phản hồi mang tính xây dựng không?"

Ngày càng có nhiều bằng chứng cho thấy một số người dùng đang nghiện sử dụng AI.

Một nghiên cứu của MIT Media Lab và OpenAI phát hiện ra rằng một tỷ lệ nhỏ đang trở nên nghiện. Những người coi chatbot là "người bạn" cũng báo cáo rằng họ ít giao tiếp với người khác và mức độ phụ thuộc về mặt cảm xúc vào chatbot cao hơn, cũng như các hành vi có vấn đề khác liên quan đến chứng nghiện.

"Những điều này tạo nên cơn bão hoàn hảo, nơi bạn có một người tuyệt vọng tìm kiếm sự đảm bảo và xác nhận kết hợp với một mô hình vốn có xu hướng đồng ý với người tham gia", Nour từ trường đại học Oxford cho biết.

Các công ty khởi nghiệp AI như Character.AI cung cấp chatbot như "người bạn đồng hành" đã phải đối mặt với sự chỉ trích vì bị cáo buộc không làm đủ để bảo vệ người dùng. Năm ngoái, một thiếu niên đã ***** sau khi tương tác với chatbot của Character.AI. Gia đình thiếu niên này đang kiện công ty vì bị cáo buộc gây ra cái chết oan uổng, cũng như vì hành vi cẩu thả và lừa đảo trong giao dịch.

Character.AI cho biết họ không bình luận về vụ kiện đang chờ xử lý, nhưng nói thêm rằng họ có "tuyên bố từ chối trách nhiệm nổi bật trong mọi cuộc trò chuyện để nhắc nhở người dùng rằng một nhân vật không phải là người thật và mọi điều nhân vật nói đều phải được coi là hư cấu". Công ty nói thêm rằng họ có các biện pháp bảo vệ để bảo vệ người dưới 18 tuổi và chống lại các cuộc thảo luận về hành vi tự làm hại bản thân.

Một mối lo ngại khác đối với Askell của Anthropic là các công cụ AI có thể tác động đến nhận thức về thực tế theo những cách tinh vi, chẳng hạn như khi đưa ra thông tin sai lệch hoặc thiên vị về mặt thực tế như sự thật.

"Nếu ai đó đang nịnh hót quá mức, điều đó rất dễ nhận thấy", Askell nói. "Sẽ đáng lo ngại hơn nếu điều này xảy ra theo cách mà chúng ta [với tư cách là người dùng cá nhân] ít nhận thấy hơn và chúng ta mất quá nhiều thời gian để nhận ra rằng lời khuyên mà chúng ta nhận được thực sự là tồi tệ".

Nguồn: Financial Times​
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy92YW4tZGUtbG9uLW5oYXQtY2hhdGJvdC1haS1oaWVuLW5heS1uaW5oLWhvdC1ub2ktbmh1bmctZ2ktbmd1b2ktZHVuZy1tdW9uLW5naGUuNjI4OTAv
Top