Trúc Hà Nhân
Intern Writer
Có một nghiên cứu thú vị về trí tuệ nhân tạo và khả năng giải quyết các câu đố Sudoku đang thu hút sự chú ý của nhiều người. Nhóm các nhà khoa học máy tính từ Đại học Colorado Boulder đã quyết định thử nghiệm xem các mô hình ngôn ngữ lớn như ChatGPT của OpenAI hay Gemini của Google có thể giải Sudoku không. Họ đã tạo ra gần 2.300 câu đố Sudoku gốc, yêu cầu người chơi điền số vào lưới theo những quy tắc nhất định, và giao nhiệm vụ này cho một số công cụ AI để điền vào.
Kết quả thì không hề đơn giản. Một số mô hình AI có thể giải được những câu đố dễ, nhưng ngay cả những mô hình tốt nhất cũng gặp khó khăn trong việc giải thích cách chúng đã làm điều đó. Thay vào đó, chúng đưa ra những mô tả khó hiểu, không chính xác hoặc thậm chí là phi lý về cách chúng đạt được câu trả lời. Nghiên cứu này đặt ra nhiều câu hỏi về độ tin cậy của thông tin do AI tạo ra, như những gì Maria Pacheco, một trong những tác giả nghiên cứu cho biết. Bà nhấn mạnh rằng đối với một số loại câu đố Sudoku, phần lớn các mô hình LLM vẫn còn thiếu sót, đặc biệt là trong việc tạo ra những giải thích có thể sử dụng được cho con người. Tại sao nó lại đưa ra giải pháp đó? Những bước nào cần thực hiện để đến đó?
Các nhà nghiên cứu không cố gắng gian lận trong trò chơi, mà họ dùng những bài tập logic này để khám phá cách mà các nền tảng AI suy nghĩ. Fabio Somenzi, một trong những tác giả nghiên cứu, cho biết rằng kết quả này có thể dẫn đến việc phát triển những chương trình máy tính đáng tin cậy hơn trong tương lai. "Các câu đố là thú vị, nhưng chúng cũng là một mô hình thu nhỏ cho việc nghiên cứu quy trình ra quyết định trong học máy," ông nói. "Nếu bạn để AI chuẩn bị thuế cho mình, bạn sẽ muốn có thể giải thích với IRS về lý do tại sao AI lại viết như vậy."
Somenzi, một người tự nhận là fan của Sudoku, cho biết rằng các câu đố này khai thác một cách suy nghĩ rất con người. Việc điền vào lưới Sudoku yêu cầu người chơi học và tuân theo một tập hợp các quy tắc logic. Ví dụ, bạn không thể điền số 2 vào một ô trống nếu trong cùng một hàng hoặc cột đã có số 2. Phần lớn các mô hình LLM ngày nay gặp khó khăn trong loại suy nghĩ này, phần lớn là do cách mà chúng được đào tạo. Để xây dựng ChatGPT, các lập trình viên đã cung cấp cho AI hầu như tất cả thông tin có trên Internet. Khi ChatGPT trả lời một câu hỏi, nó dự đoán câu trả lời hợp lý nhất dựa trên tất cả dữ liệu đó, giống như một phiên bản máy tính của trí nhớ học thuộc lòng.
Pacheco, Somenzi và các đồng nghiệp của họ đang tham gia vào một nỗ lực ngày càng tăng trong lĩnh vực khoa học máy tính nhằm kết hợp hai cách suy nghĩ này - kết hợp trí nhớ của LLM với khả năng logic của bộ não con người, một nỗ lực được gọi là AI "neurosymbolic".
Để bắt đầu, các nhà nghiên cứu đã tạo ra các câu đố Sudoku với độ khó khác nhau, sử dụng một lưới 6x6 (một phiên bản đơn giản hơn của các câu đố 9x9 thường thấy trực tuyến). Họ sau đó đã giao các câu đố này cho một loạt các mô hình AI, bao gồm cả mẫu thử nghiệm của mô hình o1 của OpenAI - một trong những mô hình LLM tiên tiến nhất vào năm 2023. Mô hình o1 dẫn đầu, giải quyết khoảng 65% câu đố Sudoku đúng. Sau đó, nhóm đã yêu cầu các nền tảng AI giải thích cách chúng đã đạt được các câu trả lời của mình, và đó là lúc kết quả trở nên thật thú vị.
"Đôi khi, các giải thích của AI đã tạo ra những thông tin không có thật," Ashutosh Trivedi, một đồng tác giả của nghiên cứu cho biết. "Nó có thể nói, 'Không thể có số 2 ở đây vì trong cùng một hàng đã có số 2,' nhưng điều đó không phải là sự thật." Trong một ví dụ minh chứng, khi các nhà nghiên cứu đang thảo luận với một trong các công cụ AI về việc giải Sudoku, không rõ lý do gì mà nó đã trả lời bằng một dự báo thời tiết. "Tại thời điểm đó, AI đã trở nên hoàn toàn rối loạn và không còn kiểm soát," Somenzi nói.
Các nhà nghiên cứu hy vọng sẽ thiết kế một hệ thống AI của riêng họ có thể làm mọi thứ—giải quyết các câu đố phức tạp và giải thích cách thức. Họ bắt đầu với một loại câu đố khác gọi là hitori, cũng như Sudoku, liên quan đến một lưới số. "Mọi người nói về khả năng mới nổi của AI, khi chúng có thể giải quyết những thứ mà bạn không ngờ tới," Pacheco cho biết. "Đồng thời, không có gì ngạc nhiên khi chúng vẫn kém trong nhiều nhiệm vụ." Thông tin thêm: Anirudh Maiya và các tác giả khác, Nghiên cứu về Giải thích Giải pháp Câu đố trong Ngôn ngữ Tự nhiên: Một Nghiên cứu Khám phá về Sudoku 6x6 (2025).
Nguồn tham khảo: Techxplore
Kết quả thì không hề đơn giản. Một số mô hình AI có thể giải được những câu đố dễ, nhưng ngay cả những mô hình tốt nhất cũng gặp khó khăn trong việc giải thích cách chúng đã làm điều đó. Thay vào đó, chúng đưa ra những mô tả khó hiểu, không chính xác hoặc thậm chí là phi lý về cách chúng đạt được câu trả lời. Nghiên cứu này đặt ra nhiều câu hỏi về độ tin cậy của thông tin do AI tạo ra, như những gì Maria Pacheco, một trong những tác giả nghiên cứu cho biết. Bà nhấn mạnh rằng đối với một số loại câu đố Sudoku, phần lớn các mô hình LLM vẫn còn thiếu sót, đặc biệt là trong việc tạo ra những giải thích có thể sử dụng được cho con người. Tại sao nó lại đưa ra giải pháp đó? Những bước nào cần thực hiện để đến đó?

Các nhà nghiên cứu không cố gắng gian lận trong trò chơi, mà họ dùng những bài tập logic này để khám phá cách mà các nền tảng AI suy nghĩ. Fabio Somenzi, một trong những tác giả nghiên cứu, cho biết rằng kết quả này có thể dẫn đến việc phát triển những chương trình máy tính đáng tin cậy hơn trong tương lai. "Các câu đố là thú vị, nhưng chúng cũng là một mô hình thu nhỏ cho việc nghiên cứu quy trình ra quyết định trong học máy," ông nói. "Nếu bạn để AI chuẩn bị thuế cho mình, bạn sẽ muốn có thể giải thích với IRS về lý do tại sao AI lại viết như vậy."
Somenzi, một người tự nhận là fan của Sudoku, cho biết rằng các câu đố này khai thác một cách suy nghĩ rất con người. Việc điền vào lưới Sudoku yêu cầu người chơi học và tuân theo một tập hợp các quy tắc logic. Ví dụ, bạn không thể điền số 2 vào một ô trống nếu trong cùng một hàng hoặc cột đã có số 2. Phần lớn các mô hình LLM ngày nay gặp khó khăn trong loại suy nghĩ này, phần lớn là do cách mà chúng được đào tạo. Để xây dựng ChatGPT, các lập trình viên đã cung cấp cho AI hầu như tất cả thông tin có trên Internet. Khi ChatGPT trả lời một câu hỏi, nó dự đoán câu trả lời hợp lý nhất dựa trên tất cả dữ liệu đó, giống như một phiên bản máy tính của trí nhớ học thuộc lòng.
Pacheco, Somenzi và các đồng nghiệp của họ đang tham gia vào một nỗ lực ngày càng tăng trong lĩnh vực khoa học máy tính nhằm kết hợp hai cách suy nghĩ này - kết hợp trí nhớ của LLM với khả năng logic của bộ não con người, một nỗ lực được gọi là AI "neurosymbolic".
Để bắt đầu, các nhà nghiên cứu đã tạo ra các câu đố Sudoku với độ khó khác nhau, sử dụng một lưới 6x6 (một phiên bản đơn giản hơn của các câu đố 9x9 thường thấy trực tuyến). Họ sau đó đã giao các câu đố này cho một loạt các mô hình AI, bao gồm cả mẫu thử nghiệm của mô hình o1 của OpenAI - một trong những mô hình LLM tiên tiến nhất vào năm 2023. Mô hình o1 dẫn đầu, giải quyết khoảng 65% câu đố Sudoku đúng. Sau đó, nhóm đã yêu cầu các nền tảng AI giải thích cách chúng đã đạt được các câu trả lời của mình, và đó là lúc kết quả trở nên thật thú vị.
"Đôi khi, các giải thích của AI đã tạo ra những thông tin không có thật," Ashutosh Trivedi, một đồng tác giả của nghiên cứu cho biết. "Nó có thể nói, 'Không thể có số 2 ở đây vì trong cùng một hàng đã có số 2,' nhưng điều đó không phải là sự thật." Trong một ví dụ minh chứng, khi các nhà nghiên cứu đang thảo luận với một trong các công cụ AI về việc giải Sudoku, không rõ lý do gì mà nó đã trả lời bằng một dự báo thời tiết. "Tại thời điểm đó, AI đã trở nên hoàn toàn rối loạn và không còn kiểm soát," Somenzi nói.
Các nhà nghiên cứu hy vọng sẽ thiết kế một hệ thống AI của riêng họ có thể làm mọi thứ—giải quyết các câu đố phức tạp và giải thích cách thức. Họ bắt đầu với một loại câu đố khác gọi là hitori, cũng như Sudoku, liên quan đến một lưới số. "Mọi người nói về khả năng mới nổi của AI, khi chúng có thể giải quyết những thứ mà bạn không ngờ tới," Pacheco cho biết. "Đồng thời, không có gì ngạc nhiên khi chúng vẫn kém trong nhiều nhiệm vụ." Thông tin thêm: Anirudh Maiya và các tác giả khác, Nghiên cứu về Giải thích Giải pháp Câu đố trong Ngôn ngữ Tự nhiên: Một Nghiên cứu Khám phá về Sudoku 6x6 (2025).
Nguồn tham khảo: Techxplore