3 điều ChatGPT làm tốt hơn Gemini

Tháp rơi tự do · 18/01/2026

Có hàng chục nghìn sản phẩm trí tuệ nhân tạo (AI) khác nhau trên thị trường, mặc dù hầu hết chúng ta chỉ biết đến một vài trong số đó. So sánh hai hệ thống AI lớn nhất – ChatGPT và Gemini – không phải là một việc dễ dàng.

Vậy làm sao để biết AI nào làm tốt hơn? Vài năm trước, chúng ta có thể thực hiện một số so sánh song song. Các thế hệ AI mô hình ngôn ngữ lớn (LLM) trước đây có thể khác biệt khá rõ rệt với nhau. Nhưng khoảng cách đang thu hẹp nhanh chóng, đặc biệt là khi bạn nói đến các thương hiệu lớn như OpenAI và Google. Mặc dù bạn vẫn có thể tìm thấy một số bài báo gần đây, trong đó ai đó đã đưa một câu hỏi duy nhất vào cả hai hệ thống và xếp hạng phản hồi mà họ thích hơn, nhưng phương pháp này có nhiều thiếu sót. Thứ nhất, đầu ra của LLM là "ngẫu nhiên", có nghĩa là các phản hồi bao gồm một yếu tố ngẫu nhiên, vì vậy cùng một câu hỏi có thể dẫn đến các phản hồi khác nhau. Ngoài ra, hiện nay ChatGPT và Gemini hầu như có thể làm được mọi thứ. Bất kỳ sự ưu tiên nào trong phản hồi thực sự chỉ là về phong cách chatbot ưa thích. Và đó chỉ là tính cách mặc định của nó. Giọng điệu và phong cách hội thoại của chatbot có thể được tùy chỉnh để phù hợp với sở thích của bạn.

Vì vậy, do chúng ta không tiến hành nhiều thử nghiệm bằng phương pháp đánh giá mù và tổng hợp kết quả, nên chúng ta sẽ để việc xếp hạng cho các chuyên gia. Có nhiều tiêu chuẩn đánh giá hệ thống AI về các khía cạnh như khả năng suy luận, logic và giải quyết vấn đề. Chúng ta sẽ đề cập đến ba trong số những tiêu chuẩn quan trọng mà ChatGPT thể hiện tốt.

Trả lời các câu hỏi khoa học khó mà Google không thể giải đáp được

Tiêu chuẩn đầu tiên mà chúng ta sẽ xem xét là GPQA Diamond . Bài kiểm tra này được thiết kế để đánh giá khả năng suy luận ở cấp độ tiến sĩ trong các lĩnh vực vật lý, hóa học và sinh học. GPQA là viết tắt của Google-Proof Questions and Answers (Câu hỏi và câu trả lời không thể tìm thấy trên Google). Có bài kiểm tra tiêu chuẩn và bài kiểm tra 'Diamond', với những câu hỏi đặc biệt khó. Việc "không thể tìm thấy trên Google" có nghĩa là đây không chỉ là những câu hỏi có một đáp án đơn giản mà bạn có thể tra cứu. Chúng đòi hỏi kỹ năng suy luận phức tạp.

Để trả lời chính xác, trí tuệ nhân tạo (AI) cần áp dụng nhiều khái niệm khoa học, tránh đưa ra giả định hoặc đi đường tắt, và bỏ qua những thông tin gây nhiễu. Đây là các câu hỏi trắc nghiệm, vì vậy mô hình AI không được tính điểm về khả năng diễn đạt trôi chảy hay sự tự tin. Nó hoặc đưa ra câu trả lời đúng hoặc không.

Cả ChatGPT và Gemini đều đạt điểm cao trong bài kiểm tra này, với ChatGPT hiện đang dẫn trước chưa đến 1%. GPT-5.2 đạt 92,4% so với 91,9% của Gemini 3 Pro. Để so sánh, một người tốt nghiệp tiến sĩ dự kiến sẽ đạt 65%, và người bình thường không phải chuyên gia đạt 34%. Vì lý do hiển nhiên, các câu hỏi thực tế chống lại Google không được công bố trực tuyến, nhưng bạn có thể xem ví dụ về các loại câu hỏi mà bài kiểm tra bao gồm tại đây .

Giải quyết các vấn đề lập trình thực tế

Dù bạn nghĩ gì về lập trình AI và những rủi ro bảo mật mà nó gây ra, khả năng sửa lỗi và giải quyết các vấn đề phần mềm khác là một kỹ năng cần thiết cho các hệ thống AI hiện nay. Các bài kiểm tra hiệu năng SWE-Bench có nhiều phiên bản khác nhau, được thiết kế để kiểm tra các khía cạnh khác nhau của kỹ thuật phần mềm. Phiên bản mà ChatGPT vượt trội hơn các đối thủ là SWE-Bench Pro (Bộ dữ liệu riêng tư) .

SWE-Bench Pro đánh giá xem liệu một hệ thống AI có thể giải quyết các nhiệm vụ kỹ thuật phần mềm thực tế được lấy từ các vấn đề thực tế trên nền tảng phát triển GitHub hay không. Mỗi nhiệm vụ yêu cầu hiểu một codebase không quen thuộc, diễn giải ý định đằng sau báo cáo lỗi, thực hiện các thay đổi thích hợp và đưa ra một giải pháp khả thi. Tập dữ liệu riêng tư không được công khai, do đó khó hơn so với tập dữ liệu công khai.

Kết quả cho thấy ChatGPT-5.2 đã giải quyết được khoảng 24% vấn đề, trong khi Gemini chỉ giải quyết được khoảng 18%. Nếu những con số này có vẻ không ấn tượng, đó là vì đây là bài kiểm tra SWE-Bench khó hoàn thành nhất. Trong các bài kiểm tra đánh giá hiệu năng lập trình đơn giản hơn, AI khắc phục được khoảng 75% vấn đề. Tuy nhiên, để so sánh, 100% các thử thách kỹ thuật trên tập dữ liệu riêng tư này đều được con người giải quyết. Việc có một giải pháp khả thi đã biết là một trong những tiêu chí cho mỗi nhiệm vụ trong bài kiểm tra. Vì vậy, AI còn một chặng đường dài trước khi có thể sánh ngang với kỹ năng của các chuyên gia kỹ thuật phần mềm con người.

Giải các câu đố hình ảnh trừu tượng

Bạn biết những câu đố mà bạn phải giải để chứng minh mình không phải là robot chứ? Có một bài kiểm tra tiêu chuẩn để đánh giá khả năng suy luận trực quan kiểu đó. Bài kiểm tra ARC-AGI ban đầu được thiết kế vào năm 2019, trước cả khi LLM (Learning Learning Module) ra đời, và được thiết kế để "đo lường một dạng trí tuệ tổng quát linh hoạt giống con người". ARC-AGI-2 là phiên bản cập nhật được ra mắt vào tháng 3 năm 2025. Nó được thiết kế để đánh giá khả năng của AI trong việc áp dụng suy luận trừu tượng vào những thách thức không quen thuộc. AI cần phải tìm ra một mô hình cơ bản từ một số ít ví dụ và sau đó áp dụng chính xác mô hình đó vào một ví dụ mới. Những nhiệm vụ này thường yêu cầu xác định những khía cạnh nào của vấn đề là có liên quan và bỏ qua mọi yếu tố gây xao nhãng. Quan trọng hơn, đây là điều mà con người nói chung khá giỏi, và là lĩnh vực mà trí tuệ nhân tạo vẫn đang gặp khó khăn trong việc đưa ra câu trả lời đúng .

Trên thang điểm chuẩn ARC-AGI-2, ChatGPT-5.2 Pro đạt 54,2%. Gemini xuất hiện nhiều lần trong danh sách. Một phiên bản tinh chỉnh nâng cao đạt 54%, và Gemini 3 Deep Think đạt 45,1%. Tuy nhiên, Gemini 3 Pro chỉ đạt 31,1%, thấp hơn đáng kể so với ChatGPT. Đây là mô hình tương tự với ChatGPT-5.2 Pro, vì cả hai đều là mô hình đăng ký trả phí trong cùng phân khúc giá, trong khi Gemini Deep Think đắt hơn nhiều. Giống như SWE-Bench Pro Private Dataset, ARC-AGI-2 là một thang điểm chuẩn mà điểm số AI tương đối thấp vì đây là một vấn đề khó khăn đối với AI. Tuy nhiên, dường như đây là lĩnh vực mà ChatGPT không chỉ vượt trội hơn Gemini mà còn vượt trội hơn tất cả các đối thủ khác.