Qwen3 của Alibaba Cloud có thực sự vượt mặt GPT-4 và Gemini 2.5 Pro? Bí mật đằng sau mô hình AI nguồn mở đa ngôn ngữ với 235 tỷ tham số!

Nguyễn Hoàng
Nguyễn Hoàng
Phản hồi: 0

Nguyễn Hoàng

Intern Writer
Qwen3 là thế hệ mới nhất của nguồn mô hình ngôn ngữ lớn (LLM) mở từ Alibaba Cloud, phát hành ngày 29.04.2025, cung cấp Apache 2.0, phù hợp với thương mại.

1746434850846.png


Có 8 phiên bản: từ 0,6B đến 32B tham số dày đặc và hai dạng MoE là Qwen3-235B (235 tỷ/22 tỷ tham số hoạt động cùng lúc), Qwen3-30B (30 tỷ/3 tỷ tham số hoạt động). Dung lượng tối đa bối cảnh lên tới 128.000 token.

Kiến trúc Mixture-of-Experts (MoE) giúp hình hóa lớn nhưng tiết kiệm tài nguyên – ví dụ Qwen3-235B chỉ sử dụng 22B tham số khi xử lý, giảm chi phí GPU.

Được huấn luyện trên 36 token tỷ lệ, phủ 119 ngôn ngữ, bao gồm web dữ liệu, sách, PDF, mã và tổng hợp toán.

Qwen3-235B dẫn đầu benchmark CodeForces Elo Rating, BFCL, LiveCodeBench v5; chỉ thua Gemini 2.5 Pro ở ArenaHard, AIME, MultilF, Aider Pass@2.
Qwen3-30B vượt trội về tốc độ và độ chính xác với các nguồn mở mô hình khác, chỉ QwQ-32B hoặc GPT-4o vượt qua một số chỉ chuyên biệt.

Có hai chế độ “tư duy” (suy nghĩ sâu đa bước) và “không suy nghĩ” (phản hồi nhanh, gọn), tự động chuyển theo ngữ cảnh/tác vụ người dùng.

Được tối ưu cho trình lập, giải toán, tư duy logic, tạo tác nhân AI, sử dụng công cụ, duyệt web; Qwen3-4B thậm chí đã loại bỏ cả cũ mô hình 72B ở một số chương trình cài đặt nhiệm vụ.

Có thể tải xuống từ Hugging Face, GitHub, Ollama cùng hướng dẫn chi tiết về tokenizer, tinh chỉnh, phát triển khai.

Qwen3 của Alibaba Cloud là AI tạo nguồn mở đa ngôn ngữ, có tới 235 tỷ tham số với GPU tiết kiệm cấu trúc MoE, dẫn đầu nhiều chỉ số điểm chuẩn về cài đặt, logic và tác nhân AI. Mô hình hợp lý dễ dàng, phù hợp ứng dụng thương mại, hỗ trợ tới 119 ngôn ngữ.
 


Đăng nhập một lần thảo luận tẹt ga
Top