Hoàng Đức
Writer
Vào ngày 21/7, giờ địa phương, Google DeepMind thông báo rằng mô hình Gemini Deep Think đã giành huy chương vàng tại Kỳ thi Olympic Toán học Quốc tế (IMO) lần thứ 66, lần đầu tiên vượt qua mốc điểm vàng của cuộc thi toán học trung học hàng đầu thế giới này theo cách được chứng nhận chính thức. Thành tích này đánh dấu một bước đột phá lớn trong khả năng suy luận toán học phức tạp của AI.
Trước thông báo chính thức của Google DeepMind, OpenAI đã đơn phương tuyên bố vào thứ Bảy tuần trước (ngày 19/7) rằng mô hình lập luận thực nghiệm của họ đã giải được năm trong số sáu câu hỏi của cuộc thi IMO năm nay, đạt 35 điểm (trên tổng số 42 điểm), đạt huy chương vàng. Mặc dù kết quả do OpenAI công bố giống với kết quả do Google DeepMind công bố sau đó, nhưng điều này đã gây ra tranh cãi gay gắt trong ngành vì không chính thức tham gia cuộc thi và vi phạm quy định công bố thông tin của Ủy ban Thi đua IMO.
IMO là một trong những kỳ thi toán học danh giá nhất thế giới, thu hút học sinh trung học hàng đầu từ hơn 100 quốc gia . Năm nay, kỳ thi IMO lần thứ 66 được tổ chức tại Bờ biển Sunshine, Queensland, Úc. Chỉ có 67/630 thí sinh (khoảng 11%) giành huy chương vàng. Mô hình Gemini Deep Think của Google DeepMind đã chính thức tham gia cuộc thi, trả lời thành công năm câu hỏi và đạt 35 điểm, đạt chuẩn huy chương vàng. Kết quả của kỳ thi đã được Ủy ban IMO chính thức chứng nhận.
Nhà nghiên cứu OpenAI Alexander Wei đã đăng một thông điệp thông báo về huy chương vàng của mình
Ngược lại, OpenAI không chính thức tham gia cuộc thi IMO, mà thông qua việc chấm điểm độc lập của ba cựu huy chương vàng IMO, tuyên bố rằng mô hình lập luận thực nghiệm của họ cũng trả lời được năm câu hỏi và đạt mức huy chương vàng. Đánh giá không chính thức này đã gây tranh cãi vì chưa được ủy ban IMO chính thức xác minh và vi phạm quy định của ủy ban.
Mô hình này lần đầu tiên được công bố tại Hội nghị Nhà phát triển Google vào tháng 5 năm nay. Chế độ suy luận nâng cao "Deep Think" của nó chạy song song nhiều đường suy luận và tích hợp kết quả để tạo ra câu trả lời cuối cùng. Thang Luong, nhà khoa học cấp cao tại Google DeepMind và trưởng nhóm IMO, cho biết: "Chúng tôi đã đạt được khả năng xử lý ngôn ngữ tự nhiên toàn diện mà không cần sự can thiệp của con người, một cuộc cách mạng hoàn toàn so với phương pháp của năm ngoái."
Mô hình của OpenAI cũng dựa trên xử lý ngôn ngữ tự nhiên và đạt được những đột phá bằng cách mở rộng đáng kể "tính toán thời gian kiểm thử", kéo dài thời gian suy nghĩ của mô hình và sử dụng tính toán song song để chạy nhiều đường suy luận. Nhà nghiên cứu Noam Brown của OpenAI gọi quá trình này là "cực kỳ tốn kém" nhưng không tiết lộ chi phí cụ thể. Ông nhấn mạnh rằng phương pháp này chứng minh tiềm năng suy luận rộng lớn của AI vượt ra ngoài toán học. Tuy nhiên, OpenAI đã không chính thức tham gia cuộc thi, và kết quả của họ không được IMO chính thức công nhận, điều này làm giảm tầm quan trọng của bước đột phá được tuyên bố này.
Google DeepMind đã hợp tác chặt chẽ với các quan chức IMO từ năm ngoái, và kết quả của họ đã được ủy ban thi đấu chính thức chứng nhận. Ủy ban IMO yêu cầu tất cả các phòng thí nghiệm AI không được gây chú ý cho thí sinh, và chỉ công bố kết quả sau khi kết quả chính thức được các chuyên gia độc lập xác minh và thí sinh được trao giải thưởng xứng đáng (tức là Thứ Hai, ngày 21 tháng 7). Chủ tịch IMO Gregor Dolinar cũng xác nhận với giới truyền thông rằng công ty đối tác đã được phép công bố kết quả vào thứ Hai. Chính hạn chế này đã cho phép OpenAI "lợi dụng kẽ hở".
Ngược lại, vì OpenAI không chính thức tham gia cuộc thi, nhưng kết quả được công bố sau lễ bế mạc hôm thứ Bảy sau khi ba cựu vận động viên đoạt huy chương vàng IMO chấm điểm độc lập, nên tranh cãi đã ngay lập tức nổ ra. Trước khi kết quả của Google được công bố, Giám đốc điều hành OpenAI, Sam Altman, đã tuyên bố rầm rộ trên mạng xã hội X rằng một mô hình ngôn ngữ lớn thử nghiệm chưa được tiết lộ của OpenAI đã đạt huy chương vàng tại IMO 2025, chính thức gia nhập hàng ngũ những người chơi toán học hàng đầu thế giới.
Trước những tranh cãi, Brown của OpenAI phát biểu tại X rằng OpenAI đã được mời tham gia một cuộc thi toán học chính thức cách đây vài tháng, nhưng đã từ chối vì tập trung vào các hệ thống ngôn ngữ tự nhiên và không biết về các sắp xếp của IMO .
Các câu hỏi IMO không chỉ đòi hỏi học sinh có nền tảng toán học vững chắc mà còn kiểm tra tư duy sáng tạo và kỹ năng phân tích phản biện của các em. Hàng năm, hàng trăm học sinh từ khắp nơi trên thế giới tham gia sự kiện này, và chỉ 8% học sinh xuất sắc nhất mới có thể giành huy chương vàng. Năm 2024, các mô hình AlphaProof và AlphaGeometry 2 của Google DeepMind đã trả lời đúng bốn câu hỏi trong IMO và đạt 28 điểm, đạt chuẩn huy chương bạc. Năm nay, sự đột phá của mô hình Gemini Deep Think cho thấy tiềm năng của các mô hình suy luận tổng quát trong các bài toán, vượt trội hơn cả trí tuệ nhân tạo toán học được thiết kế đặc biệt.
Trong tương lai, khả năng suy luận của AI dự kiến sẽ mở rộng sang nhiều lĩnh vực hơn, giúp các nhà khoa học giải quyết các vấn đề nghiên cứu phức tạp trong các lĩnh vực như vật lý. Google dự định cung cấp Gemini Deep Think cho các nhà toán học để thử nghiệm, và cuối cùng sẽ mở cửa cho người dùng đăng ký AI Ultra với mức giá 250 đô la mỗi tháng. OpenAI cho biết họ sẽ không phát hành một mô hình nào có khả năng toán học ở mức độ này trong thời gian tới.

Trước thông báo chính thức của Google DeepMind, OpenAI đã đơn phương tuyên bố vào thứ Bảy tuần trước (ngày 19/7) rằng mô hình lập luận thực nghiệm của họ đã giải được năm trong số sáu câu hỏi của cuộc thi IMO năm nay, đạt 35 điểm (trên tổng số 42 điểm), đạt huy chương vàng. Mặc dù kết quả do OpenAI công bố giống với kết quả do Google DeepMind công bố sau đó, nhưng điều này đã gây ra tranh cãi gay gắt trong ngành vì không chính thức tham gia cuộc thi và vi phạm quy định công bố thông tin của Ủy ban Thi đua IMO.

IMO là một trong những kỳ thi toán học danh giá nhất thế giới, thu hút học sinh trung học hàng đầu từ hơn 100 quốc gia . Năm nay, kỳ thi IMO lần thứ 66 được tổ chức tại Bờ biển Sunshine, Queensland, Úc. Chỉ có 67/630 thí sinh (khoảng 11%) giành huy chương vàng. Mô hình Gemini Deep Think của Google DeepMind đã chính thức tham gia cuộc thi, trả lời thành công năm câu hỏi và đạt 35 điểm, đạt chuẩn huy chương vàng. Kết quả của kỳ thi đã được Ủy ban IMO chính thức chứng nhận.

Nhà nghiên cứu OpenAI Alexander Wei đã đăng một thông điệp thông báo về huy chương vàng của mình
Ngược lại, OpenAI không chính thức tham gia cuộc thi IMO, mà thông qua việc chấm điểm độc lập của ba cựu huy chương vàng IMO, tuyên bố rằng mô hình lập luận thực nghiệm của họ cũng trả lời được năm câu hỏi và đạt mức huy chương vàng. Đánh giá không chính thức này đã gây tranh cãi vì chưa được ủy ban IMO chính thức xác minh và vi phạm quy định của ủy ban.
Làm thế nào để giành chiến thắng theo IMO
Không giống như các AI trước đây dựa vào ngôn ngữ chính thức (như Lean) hoặc các hệ thống toán học chuyên biệt, mô hình Gemini Deep Think của Google DeepMind sử dụng phương pháp suy luận chung để xử lý trực tiếp các câu hỏi ngôn ngữ tự nhiên và hoàn thành câu trả lời trong thời gian giới hạn chính thức là 4,5 giờ cho mỗi trò chơi .Mô hình này lần đầu tiên được công bố tại Hội nghị Nhà phát triển Google vào tháng 5 năm nay. Chế độ suy luận nâng cao "Deep Think" của nó chạy song song nhiều đường suy luận và tích hợp kết quả để tạo ra câu trả lời cuối cùng. Thang Luong, nhà khoa học cấp cao tại Google DeepMind và trưởng nhóm IMO, cho biết: "Chúng tôi đã đạt được khả năng xử lý ngôn ngữ tự nhiên toàn diện mà không cần sự can thiệp của con người, một cuộc cách mạng hoàn toàn so với phương pháp của năm ngoái."
Mô hình của OpenAI cũng dựa trên xử lý ngôn ngữ tự nhiên và đạt được những đột phá bằng cách mở rộng đáng kể "tính toán thời gian kiểm thử", kéo dài thời gian suy nghĩ của mô hình và sử dụng tính toán song song để chạy nhiều đường suy luận. Nhà nghiên cứu Noam Brown của OpenAI gọi quá trình này là "cực kỳ tốn kém" nhưng không tiết lộ chi phí cụ thể. Ông nhấn mạnh rằng phương pháp này chứng minh tiềm năng suy luận rộng lớn của AI vượt ra ngoài toán học. Tuy nhiên, OpenAI đã không chính thức tham gia cuộc thi, và kết quả của họ không được IMO chính thức công nhận, điều này làm giảm tầm quan trọng của bước đột phá được tuyên bố này.
Google DeepMind đã hợp tác chặt chẽ với các quan chức IMO từ năm ngoái, và kết quả của họ đã được ủy ban thi đấu chính thức chứng nhận. Ủy ban IMO yêu cầu tất cả các phòng thí nghiệm AI không được gây chú ý cho thí sinh, và chỉ công bố kết quả sau khi kết quả chính thức được các chuyên gia độc lập xác minh và thí sinh được trao giải thưởng xứng đáng (tức là Thứ Hai, ngày 21 tháng 7). Chủ tịch IMO Gregor Dolinar cũng xác nhận với giới truyền thông rằng công ty đối tác đã được phép công bố kết quả vào thứ Hai. Chính hạn chế này đã cho phép OpenAI "lợi dụng kẽ hở".


Ngược lại, vì OpenAI không chính thức tham gia cuộc thi, nhưng kết quả được công bố sau lễ bế mạc hôm thứ Bảy sau khi ba cựu vận động viên đoạt huy chương vàng IMO chấm điểm độc lập, nên tranh cãi đã ngay lập tức nổ ra. Trước khi kết quả của Google được công bố, Giám đốc điều hành OpenAI, Sam Altman, đã tuyên bố rầm rộ trên mạng xã hội X rằng một mô hình ngôn ngữ lớn thử nghiệm chưa được tiết lộ của OpenAI đã đạt huy chương vàng tại IMO 2025, chính thức gia nhập hàng ngũ những người chơi toán học hàng đầu thế giới.
Trước những tranh cãi, Brown của OpenAI phát biểu tại X rằng OpenAI đã được mời tham gia một cuộc thi toán học chính thức cách đây vài tháng, nhưng đã từ chối vì tập trung vào các hệ thống ngôn ngữ tự nhiên và không biết về các sắp xếp của IMO .
Nền tảng cao nhất cho các cuộc thi toán học toàn cầu
IMO là nền tảng hàng đầu cho các cuộc thi toán học toàn cầu, nhằm mục đích khơi dậy niềm đam mê toán học của giới trẻ và kiểm tra khả năng tư duy, lập luận của các em thông qua một loạt các câu hỏi phức tạp. Hàng năm, các học sinh xuất sắc nhất từ khắp nơi trên thế giới sẽ tham gia kỳ thi về đại số, hình học, lý thuyết số và các lĩnh vực khác. Thời gian làm bài thi là bốn tiếng rưỡi, cùng với độ khó và thử thách khiến IMO trở thành một trong những kỳ thi toán học danh giá nhất thế giới.Các câu hỏi IMO không chỉ đòi hỏi học sinh có nền tảng toán học vững chắc mà còn kiểm tra tư duy sáng tạo và kỹ năng phân tích phản biện của các em. Hàng năm, hàng trăm học sinh từ khắp nơi trên thế giới tham gia sự kiện này, và chỉ 8% học sinh xuất sắc nhất mới có thể giành huy chương vàng. Năm 2024, các mô hình AlphaProof và AlphaGeometry 2 của Google DeepMind đã trả lời đúng bốn câu hỏi trong IMO và đạt 28 điểm, đạt chuẩn huy chương bạc. Năm nay, sự đột phá của mô hình Gemini Deep Think cho thấy tiềm năng của các mô hình suy luận tổng quát trong các bài toán, vượt trội hơn cả trí tuệ nhân tạo toán học được thiết kế đặc biệt.
Trong tương lai, khả năng suy luận của AI dự kiến sẽ mở rộng sang nhiều lĩnh vực hơn, giúp các nhà khoa học giải quyết các vấn đề nghiên cứu phức tạp trong các lĩnh vực như vật lý. Google dự định cung cấp Gemini Deep Think cho các nhà toán học để thử nghiệm, và cuối cùng sẽ mở cửa cho người dùng đăng ký AI Ultra với mức giá 250 đô la mỗi tháng. OpenAI cho biết họ sẽ không phát hành một mô hình nào có khả năng toán học ở mức độ này trong thời gian tới.