Thảo Nông
Writer
Chỉ vài ngày trước thềm sự kiện WWDC 2025, Apple vừa bất ngờ tung ra một nghiên cứu táo bạo mang tên "Ảo tưởng về Tư duy", khẳng định các mô hình AI tiên tiến nhất hiện nay không thực sự "suy luận" mà chỉ là những "cỗ máy ghi âm xác suất". Phát hiện này đặt ra một câu hỏi lớn về tương lai của AI và giấc mơ AGI.
Apple "tạt gáo nước lạnh" vào cơn sốt AI suy luận
Trong một động thái có thể làm rung chuyển cả ngành công nghiệp công nghệ, Apple vừa công bố một nghiên cứu táo bạo và đầy tính khiêu khích với tiêu đề "Ảo tưởng về Tư duy" (Illusion of Reasoning). Đây được xem là một cuộc "tấn công" trực diện vào niềm tin đang ngày càng phổ biến rằng các mô hình Trí tuệ Nhân tạo (AI) hiện tại đã có khả năng suy luận một cách thực sự.
Nghiên cứu này không chỉ đặt một dấu hỏi lớn về năng lực thực sự của những "siêu phẩm" AI đang được ca ngợi hết lời như GPT-o1 (của OpenAI), Claude Thinking (của Anthropic) hay DeepSeek-R1 (của DeepSeek), mà còn đưa ra một luận điểm gây choáng váng: giấc mơ về trí tuệ nhân tạo tổng quát (AGI) vẫn còn xa vời hơn rất nhiều so với những gì chúng ta đang tưởng tượng.
Thời điểm Apple tung ra nghiên cứu này không hề ngẫu nhiên. Nó được công bố chỉ vài ngày trước thềm Hội nghị các nhà phát triển toàn cầu (WWDC) diễn ra vào ngày 9 tháng 6, trong bối cảnh những kỳ vọng về các tiến bộ AI của chính Apple đang ở mức khá thấp. Bằng cách này, Apple dường như đã chọn cách "tạt một gáo nước lạnh" vào làn sóng phấn khích đang có phần thái quá xung quanh khả năng suy luận của các hệ thống AI. Điều đặc biệt thú vị và có phần mỉa mai là chính Apple – một công ty đang gặp không ít khó khăn với các dự án Apple Intelligence và Siri 2.0 – lại là người đứng ra để thách thức những tuyên bố về "siêu năng lực" của các đối thủ cạnh tranh.
Phương pháp thử nghiệm AI hoàn toàn mới
Để chứng minh cho luận điểm của mình, các nhà nghiên cứu của Apple đã từ bỏ những phương pháp đánh giá (benchmark) AI truyền thống. Thay vì sử dụng các bài kiểm tra toán học tiêu chuẩn – vốn có thể đã bị "nhiễm độc" (contaminated) do các mô hình AI có thể đã "học thuộc lòng" các lời giải từ dữ liệu huấn luyện khổng lồ trên internet – họ đã thiết kế ra những "môi trường giải đố có thể kiểm soát được" (controllable puzzle environments).
Đây là những trò chơi logic kinh điển như Tháp Hà Nội (Tower of Hanoi), Cờ đam nhảy (Checkers Jumping), Vượt sông (River Crossing) và Thế giới khối hộp (Blocks World). Ưu điểm của phương pháp này là các nhà nghiên cứu có thể điều chỉnh độ khó của các bài toán một cách chính xác mà không làm thay đổi cấu trúc logic cốt lõi của chúng. Cách tiếp cận này cho phép Apple không chỉ đánh giá kết quả giải quyết vấn đề cuối cùng, mà còn có thể "nhìn vào bên trong" quá trình suy nghĩ của AI, giống như việc theo dõi từng bước suy nghĩ của một học sinh khi đang giải một bài toán phức tạp.
Các cột hiển thị tiến trình từ trạng thái ban đầu (trên cùng) qua trạng thái trung gian (giữa) đến trạng thái mục tiêu (dưới cùng) cho các câu đố: Tower of Hanoi (chuyển đĩa qua các chốt), Checkers Jumping (hoán đổi vị trí các quân cờ màu), River Crossing (vận chuyển các thực thể qua sông) và Blocks World (cấu hình lại ngăn xếp).
Những phát hiện "kinh ngạc" và "phản trực giác"
Những gì mà các nhà nghiên cứu của Apple phát hiện ra thực sự đáng kinh ngạc và có phần "phản trực giác":
Một phát hiện còn gây sốc hơn nữa là hành vi "phản trực giác" của các mô hình suy luận khi đối mặt với những thách thức ngày càng lớn. Ban đầu, khi bài toán trở nên khó hơn, chúng sẽ "suy nghĩ" nhiều hơn, tức là tạo ra những chuỗi lý luận dài hơn. Nhưng khi đến gần điểm "sụp đổ" của mình, thay vì cố gắng hết sức có thể, các mô hình này lại bắt đầu "lười biếng", chúng chủ động giảm nỗ lực suy luận mặc dù vẫn còn rất nhiều tài nguyên tính toán chưa được sử dụng. Điều này cho thấy chúng dường như có khả năng "nhận ra" khi nào mình không thể giải quyết được vấn đề và quyết định "từ bỏ" – một hành vi hoàn toàn khác với cách con người thường cố gắng đến cùng khi gặp khó khăn.
Những hạn chế của các mô hình suy luận còn được thể hiện qua một thí nghiệm đáng kinh ngạc khác. Ngay cả khi các nhà nghiên cứu cung cấp cho AI một thuật toán giải quyết vấn đề một cách tường minh và chi tiết ngay trong câu lệnh, hiệu suất của chúng vẫn không hề được cải thiện. Sự sụp đổ về hiệu suất vẫn xảy ra ở đúng những điểm khó như trước đó. Điều này cho thấy các mô hình AI không thực sự "hiểu" được logic hay có khả năng tuân theo các bước suy luận một cách nhất quán, mà chúng chỉ đơn thuần dựa vào việc nhận dạng các mẫu (patterns) mà chúng đã học được trong quá trình huấn luyện.
Sự bất nhất quán trong hiệu suất của AI cũng là một bằng chứng mạnh mẽ khác. Ví dụ, mô hình Claude 3.7 Sonnet có thể thực hiện chính xác hơn 100 nước đi trong một trò chơi Tháp Hà Nội phức tạp, nhưng lại thất bại chỉ sau 4 nước đi trong một trò chơi Vượt sông đơn giản hơn nhiều. Sự "dễ vỡ" của chúng còn được thể hiện qua việc chỉ cần thêm một câu không liên quan vào câu hỏi cũng có thể làm giảm hiệu suất giải quyết vấn đề tới 65%.
Kết luận: AI chỉ là "máy ghi âm xác suất", giấc mơ AGI còn xa
Quan trọng nhất, nghiên cứu của Apple khẳng định họ không tìm thấy bất kỳ bằng chứng nào cho thấy các mô hình AI hiện tại thực hiện các phép suy luận logic hay suy luận biểu tượng (symbolic reasoning) thực sự. Thay vào đó, chúng hoạt động giống như những "cỗ máy ghi âm xác suất" (probabilistic tape recorders), chỉ đơn thuần là dự đoán từ tiếp theo có khả năng xuất hiện cao nhất dựa trên những mẫu câu chữ mà chúng đã "nhìn thấy" trong quá trình huấn luyện, chứ không hề "suy ra" câu trả lời từ những nguyên tắc logic cơ bản. Những chuỗi suy nghĩ dài dòng mà chúng tạo ra có thể trông rất "có vẻ thông minh", nhưng bên dưới lớp vỏ đó không hề có một quá trình giải quyết vấn đề logic thực sự.
Cuối cùng, nghiên cứu của Apple đặt ra một câu hỏi lớn về tương lai của ngành AI: Liệu chúng ta có đang quá "phấn khích" và lạc quan một cách thái quá về những khả năng hiện tại của các hệ thống này đến mức bỏ qua những hạn chế cố hữu của nó? Và liệu con đường để đi đến Trí tuệ Nhân tạo Tổng quát (AGI) có thực sự còn xa vời hơn nhiều so với những dự đoán lạc quan hiện tại? Với những phát hiện này, có lẽ thay vì tiếp tục mơ mộng về một tương lai AI toàn năng sắp đến, chúng ta cần quay trở về với thực tế và hiểu rõ hơn về những gì các hệ thống AI hiện tại thực sự có thể và không thể làm được.
Bạn có thể đọc bản gốc về báo cáo của Apple tại đây
machinelearning.apple.com

Apple "tạt gáo nước lạnh" vào cơn sốt AI suy luận
Trong một động thái có thể làm rung chuyển cả ngành công nghiệp công nghệ, Apple vừa công bố một nghiên cứu táo bạo và đầy tính khiêu khích với tiêu đề "Ảo tưởng về Tư duy" (Illusion of Reasoning). Đây được xem là một cuộc "tấn công" trực diện vào niềm tin đang ngày càng phổ biến rằng các mô hình Trí tuệ Nhân tạo (AI) hiện tại đã có khả năng suy luận một cách thực sự.
Nghiên cứu này không chỉ đặt một dấu hỏi lớn về năng lực thực sự của những "siêu phẩm" AI đang được ca ngợi hết lời như GPT-o1 (của OpenAI), Claude Thinking (của Anthropic) hay DeepSeek-R1 (của DeepSeek), mà còn đưa ra một luận điểm gây choáng váng: giấc mơ về trí tuệ nhân tạo tổng quát (AGI) vẫn còn xa vời hơn rất nhiều so với những gì chúng ta đang tưởng tượng.

Phương pháp thử nghiệm AI hoàn toàn mới
Để chứng minh cho luận điểm của mình, các nhà nghiên cứu của Apple đã từ bỏ những phương pháp đánh giá (benchmark) AI truyền thống. Thay vì sử dụng các bài kiểm tra toán học tiêu chuẩn – vốn có thể đã bị "nhiễm độc" (contaminated) do các mô hình AI có thể đã "học thuộc lòng" các lời giải từ dữ liệu huấn luyện khổng lồ trên internet – họ đã thiết kế ra những "môi trường giải đố có thể kiểm soát được" (controllable puzzle environments).
Đây là những trò chơi logic kinh điển như Tháp Hà Nội (Tower of Hanoi), Cờ đam nhảy (Checkers Jumping), Vượt sông (River Crossing) và Thế giới khối hộp (Blocks World). Ưu điểm của phương pháp này là các nhà nghiên cứu có thể điều chỉnh độ khó của các bài toán một cách chính xác mà không làm thay đổi cấu trúc logic cốt lõi của chúng. Cách tiếp cận này cho phép Apple không chỉ đánh giá kết quả giải quyết vấn đề cuối cùng, mà còn có thể "nhìn vào bên trong" quá trình suy nghĩ của AI, giống như việc theo dõi từng bước suy nghĩ của một học sinh khi đang giải một bài toán phức tạp.

Các cột hiển thị tiến trình từ trạng thái ban đầu (trên cùng) qua trạng thái trung gian (giữa) đến trạng thái mục tiêu (dưới cùng) cho các câu đố: Tower of Hanoi (chuyển đĩa qua các chốt), Checkers Jumping (hoán đổi vị trí các quân cờ màu), River Crossing (vận chuyển các thực thể qua sông) và Blocks World (cấu hình lại ngăn xếp).
Những phát hiện "kinh ngạc" và "phản trực giác"
Những gì mà các nhà nghiên cứu của Apple phát hiện ra thực sự đáng kinh ngạc và có phần "phản trực giác":
- Ba "chế độ" hoạt động: Các mô hình AI suy luận hoạt động theo ba "chế độ" hoàn toàn khác nhau tùy thuộc vào độ phức tạp của bài toán.
- Kém hiệu quả ở bài toán đơn giản: Với những vấn đề đơn giản, một điều bất ngờ đã xảy ra: các mô hình AI thông thường (không có cơ chế suy luận phức tạp) lại hoạt động hiệu quả và chính xác hơn so với những "siêu mô hình" được trang bị khả năng suy luận. Điều này giống như việc một học sinh bình thường có thể giải được bài toán cộng trừ nhanh hơn một thiên tài đang cố gắng áp dụng những công thức toán học cao cấp một cách không cần thiết.
- "Vùng ngọt ngào" ở độ phức tạp trung bình: Ở mức độ phức tạp trung bình, các mô hình suy luận mới bắt đầu thể hiện được giá trị của mình. Khả năng tạo ra những chuỗi suy nghĩ dài (chain of thought) đã giúp chúng giải quyết được những vấn đề mà các mô hình thông thường gặp khó khăn. Đây có thể được coi là "vùng ngọt ngào" (sweet spot) duy nhất mà các mô hình AI suy luận thực sự tỏ ra vượt trội.
- "Sụp đổ hoàn toàn" ở bài toán khó: Tuy nhiên, khi phải đối mặt với những bài toán thực sự khó và phức tạp, cả hai loại mô hình AI (suy luận và thông thường) đều trải qua một sự sụp đổ hoàn toàn về mặt hiệu suất. Độ chính xác của chúng giảm xuống gần như bằng không. Mặc dù các mô hình suy luận có thể "cầm cự" được lâu hơn một chút, cuối cùng chúng cũng gặp phải những giới hạn cơ bản tương tự.
Một phát hiện còn gây sốc hơn nữa là hành vi "phản trực giác" của các mô hình suy luận khi đối mặt với những thách thức ngày càng lớn. Ban đầu, khi bài toán trở nên khó hơn, chúng sẽ "suy nghĩ" nhiều hơn, tức là tạo ra những chuỗi lý luận dài hơn. Nhưng khi đến gần điểm "sụp đổ" của mình, thay vì cố gắng hết sức có thể, các mô hình này lại bắt đầu "lười biếng", chúng chủ động giảm nỗ lực suy luận mặc dù vẫn còn rất nhiều tài nguyên tính toán chưa được sử dụng. Điều này cho thấy chúng dường như có khả năng "nhận ra" khi nào mình không thể giải quyết được vấn đề và quyết định "từ bỏ" – một hành vi hoàn toàn khác với cách con người thường cố gắng đến cùng khi gặp khó khăn.
Những hạn chế của các mô hình suy luận còn được thể hiện qua một thí nghiệm đáng kinh ngạc khác. Ngay cả khi các nhà nghiên cứu cung cấp cho AI một thuật toán giải quyết vấn đề một cách tường minh và chi tiết ngay trong câu lệnh, hiệu suất của chúng vẫn không hề được cải thiện. Sự sụp đổ về hiệu suất vẫn xảy ra ở đúng những điểm khó như trước đó. Điều này cho thấy các mô hình AI không thực sự "hiểu" được logic hay có khả năng tuân theo các bước suy luận một cách nhất quán, mà chúng chỉ đơn thuần dựa vào việc nhận dạng các mẫu (patterns) mà chúng đã học được trong quá trình huấn luyện.

Sự bất nhất quán trong hiệu suất của AI cũng là một bằng chứng mạnh mẽ khác. Ví dụ, mô hình Claude 3.7 Sonnet có thể thực hiện chính xác hơn 100 nước đi trong một trò chơi Tháp Hà Nội phức tạp, nhưng lại thất bại chỉ sau 4 nước đi trong một trò chơi Vượt sông đơn giản hơn nhiều. Sự "dễ vỡ" của chúng còn được thể hiện qua việc chỉ cần thêm một câu không liên quan vào câu hỏi cũng có thể làm giảm hiệu suất giải quyết vấn đề tới 65%.
Kết luận: AI chỉ là "máy ghi âm xác suất", giấc mơ AGI còn xa
Quan trọng nhất, nghiên cứu của Apple khẳng định họ không tìm thấy bất kỳ bằng chứng nào cho thấy các mô hình AI hiện tại thực hiện các phép suy luận logic hay suy luận biểu tượng (symbolic reasoning) thực sự. Thay vào đó, chúng hoạt động giống như những "cỗ máy ghi âm xác suất" (probabilistic tape recorders), chỉ đơn thuần là dự đoán từ tiếp theo có khả năng xuất hiện cao nhất dựa trên những mẫu câu chữ mà chúng đã "nhìn thấy" trong quá trình huấn luyện, chứ không hề "suy ra" câu trả lời từ những nguyên tắc logic cơ bản. Những chuỗi suy nghĩ dài dòng mà chúng tạo ra có thể trông rất "có vẻ thông minh", nhưng bên dưới lớp vỏ đó không hề có một quá trình giải quyết vấn đề logic thực sự.
Cuối cùng, nghiên cứu của Apple đặt ra một câu hỏi lớn về tương lai của ngành AI: Liệu chúng ta có đang quá "phấn khích" và lạc quan một cách thái quá về những khả năng hiện tại của các hệ thống này đến mức bỏ qua những hạn chế cố hữu của nó? Và liệu con đường để đi đến Trí tuệ Nhân tạo Tổng quát (AGI) có thực sự còn xa vời hơn nhiều so với những dự đoán lạc quan hiện tại? Với những phát hiện này, có lẽ thay vì tiếp tục mơ mộng về một tương lai AI toàn năng sắp đến, chúng ta cần quay trở về với thực tế và hiểu rõ hơn về những gì các hệ thống AI hiện tại thực sự có thể và không thể làm được.
Bạn có thể đọc bản gốc về báo cáo của Apple tại đây

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes…