Trí tuệ nhân tạo ngày càng mạnh hơn, nhưng “ảo giác” của nó càng tệ hơn

Christine May
Christine May
Phản hồi: 0

Christine May

Editor
Thành viên BQT
Một làn sóng hệ thống "lý luận" mới từ các công ty như OpenAI đang tạo ra thông tin sai lệch thường xuyên hơn. Ngay cả các công ty cũng không biết tại sao.
1746501750724.png


Tháng trước, một bot AI hỗ trợ kỹ thuật cho Cursor — một công cụ lập trình đang nổi — đã thông báo với một số khách hàng về sự thay đổi trong chính sách của công ty. Nó nói rằng họ không còn được phép sử dụng Cursor trên nhiều hơn một máy tính.


Các khách hàng đã phẫn nộ đăng bài trên các diễn đàn mạng. Một số hủy tài khoản Cursor. Và họ càng tức giận hơn khi phát hiện ra sự thật: Bot AI này đã công bố một chính sách không hề tồn tại.


“Chúng tôi không có chính sách nào như vậy cả. Tất nhiên các bạn có thể sử dụng Cursor trên nhiều máy,” CEO kiêm đồng sáng lập của công ty, Michael Truell, viết trên Reddit. “Thật không may, đây là phản hồi sai từ một bot hỗ trợ AI tuyến đầu.”


Hơn hai năm sau khi ChatGPT ra đời, các công ty công nghệ, nhân viên văn phòng và người dùng bình thường đang sử dụng bot AI cho nhiều nhiệm vụ hơn bao giờ hết. Nhưng vẫn chưa có cách nào để đảm bảo rằng các hệ thống này cung cấp thông tin chính xác.


Những công nghệ mới nhất và mạnh mẽ nhất — các hệ thống lý luận từ các công ty như OpenAI, Google và startup Trung Quốc DeepSeek — lại tạo ra nhiều lỗi hơn, không phải ít hơn. Dù khả năng toán học của chúng đã cải thiện đáng kể, độ chính xác về mặt dữ kiện lại giảm sút. Nguyên nhân vẫn chưa rõ ràng.


Các bot AI hiện nay được xây dựng dựa trên các hệ thống toán học phức tạp học kỹ năng bằng cách phân tích lượng dữ liệu kỹ thuật số khổng lồ. Chúng không — và không thể — tự quyết định điều gì là đúng hay sai. Đôi khi chúng đơn giản là bịa ra thông tin, hiện tượng mà các nhà nghiên cứu AI gọi là “ảo giác”. Trong một bài kiểm tra, tỷ lệ ảo giác của các hệ thống AI mới lên tới 79%.


Những hệ thống này dùng xác suất toán học để đoán phản hồi tốt nhất, chứ không phải dựa trên các quy tắc nghiêm ngặt do kỹ sư con người lập trình. Do đó, chúng luôn mắc một số lỗi nhất định. “Dù chúng tôi cố gắng đến đâu, chúng vẫn sẽ ảo giác,” Amr Awadallah, CEO của Vectara (startup xây dựng công cụ AI cho doanh nghiệp, cựu giám đốc Google) nói. “Điều đó sẽ không bao giờ biến mất.”


Hiện tượng này đã gây lo ngại trong nhiều năm về độ tin cậy của các hệ thống AI. Dù chúng hữu ích trong một số tình huống — như viết bài luận, tóm tắt tài liệu văn phòng và tạo mã lập trình — nhưng lỗi của chúng có thể gây ra nhiều vấn đề.


Các bot AI tích hợp trong công cụ tìm kiếm như Google và Bing đôi khi tạo ra kết quả sai đến mức buồn cười. Nếu bạn hỏi về một cuộc thi marathon tốt trên bờ Tây nước Mỹ, chúng có thể gợi ý một cuộc đua ở Philadelphia. Nếu bạn hỏi số hộ dân ở Illinois, chúng có thể dẫn nguồn không chứa thông tin đó.


Những “ảo giác” này có thể không quá nghiêm trọng với nhiều người, nhưng lại là vấn đề lớn đối với ai sử dụng công nghệ trong các lĩnh vực như pháp luật, y tế hay dữ liệu kinh doanh nhạy cảm.


“Bạn phải tốn rất nhiều thời gian để xác định phản hồi nào là đúng sự thật, phản hồi nào không,” Pratik Verma, đồng sáng lập kiêm CEO của Okahu, một công ty giúp doanh nghiệp xử lý vấn đề ảo giác cho biết. “Không xử lý đúng các lỗi này sẽ khiến AI mất đi giá trị, vì mục tiêu là tự động hóa công việc.”


Cursor và ông Truell đã không trả lời yêu cầu bình luận.


Hơn hai năm qua, các công ty như OpenAI và Google đã liên tục cải thiện hệ thống AI và giảm tần suất lỗi. Nhưng với việc sử dụng hệ thống lý luận mới, lỗi đang gia tăng. Theo các bài kiểm tra nội bộ, hệ thống mới nhất của OpenAI còn ảo giác nhiều hơn so với phiên bản trước đó.


Hệ thống mạnh nhất của họ — có tên o3 — đã ảo giác 33% trong bài kiểm tra PersonQA (trả lời câu hỏi về nhân vật nổi tiếng). Tỷ lệ này cao gấp đôi hệ thống lý luận trước đó, o1. Phiên bản mới o4-mini còn tệ hơn với tỷ lệ ảo giác 48%.


Trong một bài kiểm tra khác tên SimpleQA (câu hỏi tổng quát), tỷ lệ ảo giác của o3 và o4-mini lần lượt là 51% và 79%. Trong khi đó, hệ thống o1 là 44%.


Trong một tài liệu mô tả chi tiết các bài kiểm tra, OpenAI cho biết cần nghiên cứu thêm để hiểu nguyên nhân dẫn đến kết quả này. Vì các hệ thống AI học từ lượng dữ liệu lớn đến mức con người không thể nắm bắt hết, nên các kỹ sư cũng gặp khó khăn khi muốn giải thích hành vi của chúng.


“Ảo giác không nhất thiết xảy ra nhiều hơn ở các mô hình lý luận, nhưng chúng tôi đang tích cực làm việc để giảm tỷ lệ cao mà chúng tôi thấy ở o3 và o4-mini,” phát ngôn viên Gaby Raila của công ty nói. “Chúng tôi sẽ tiếp tục nghiên cứu vấn đề ảo giác trên mọi mô hình để cải thiện độ chính xác và độ tin cậy.”


Hannaneh Hajishirzi, giáo sư Đại học Washington và nhà nghiên cứu tại Viện Trí tuệ Nhân tạo Allen, nằm trong nhóm vừa phát triển một phương pháp lần theo hành vi của hệ thống về các phần dữ liệu cụ thể đã được dùng để huấn luyện. Nhưng vì hệ thống học từ quá nhiều dữ liệu — và có thể tạo ra gần như bất cứ thứ gì — nên công cụ mới này không thể giải thích tất cả. “Chúng ta vẫn chưa hiểu chính xác cách mà các mô hình này hoạt động,” bà nói.


Các bài kiểm tra độc lập cũng cho thấy tỷ lệ ảo giác đang tăng ở các mô hình lý luận của Google và DeepSeek.


Từ cuối năm 2023, công ty Vectara của ông Awadallah đã theo dõi mức độ các chatbot “bịa chuyện”. Công ty yêu cầu các hệ thống này thực hiện một nhiệm vụ đơn giản có thể dễ dàng xác minh: Tóm tắt các bài báo cụ thể. Ngay cả khi đó, các chatbot vẫn thường xuyên bịa ra thông tin.


Nghiên cứu ban đầu của Vectara ước tính trong tình huống này, chatbot bịa thông tin ít nhất 3% và có lúc lên tới 27%.


Trong một năm rưỡi qua, các công ty như OpenAI và Google đã hạ con số đó xuống mức 1-2%. Một số công ty khác như Anthropic ở San Francisco dao động quanh mức 4%. Nhưng tỷ lệ ảo giác lại tăng trở lại khi sử dụng hệ thống lý luận. Hệ thống R1 của DeepSeek ảo giác 14,3%. O3 của OpenAI tăng lên 6,8%.


(The New York Times đã kiện OpenAI và đối tác Microsoft, cáo buộc họ vi phạm bản quyền khi sử dụng nội dung báo chí liên quan đến hệ thống AI. OpenAI và Microsoft phủ nhận cáo buộc.)


Trong nhiều năm, các công ty như OpenAI dựa vào một nguyên tắc đơn giản: Càng cung cấp nhiều dữ liệu từ Internet, hệ thống AI sẽ càng hoạt động tốt. Nhưng giờ họ đã dùng gần hết nội dung tiếng Anh trên mạng, nên họ cần phương pháp mới để cải tiến chatbot.


Vì vậy, các công ty này đang dựa nhiều hơn vào một kỹ thuật gọi là “học tăng cường” (reinforcement learning). Với kỹ thuật này, hệ thống có thể học thông qua thử và sai. Nó hoạt động tốt trong một số lĩnh vực như toán học và lập trình. Nhưng lại kém hiệu quả ở những lĩnh vực khác.


“Cách huấn luyện này khiến hệ thống tập trung vào một nhiệm vụ — và quên đi các nhiệm vụ khác,” Laura Perez-Beltrachini, nhà nghiên cứu tại Đại học Edinburgh, cho biết. Bà là thành viên nhóm đang nghiên cứu sâu về vấn đề ảo giác.


Một vấn đề khác là mô hình lý luận được thiết kế để “suy nghĩ” kỹ về các vấn đề phức tạp trước khi đưa ra câu trả lời. Khi chúng cố gắng giải quyết vấn đề từng bước, nguy cơ phát sinh lỗi ở mỗi bước cũng tăng. Lỗi có thể cộng dồn theo thời gian xử lý.


Các bot mới hiện hiển thị từng bước suy luận cho người dùng, điều này đồng nghĩa với việc người dùng có thể nhìn thấy cả các lỗi ở từng bước. Các nhà nghiên cứu cũng phát hiện rằng trong nhiều trường hợp, các bước được bot hiển thị hoàn toàn không liên quan đến đáp án cuối cùng.


“Những gì hệ thống nói rằng nó đang suy nghĩ, chưa chắc đã là điều nó thực sự suy nghĩ,” Aryo Pradipta Gema, nhà nghiên cứu AI tại Đại học Edinburgh và là nghiên cứu sinh tại Anthropic cho biết. (NYT)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top