Hoàng Anh
Writer
Các nhà nghiên cứu phát triển mô hình Pangu của Huawei đã giới thiệu khái niệm "Mixture of Grouped Experts" (MoGE), một phiên bản nâng cấp của kỹ thuật MoE mà DeepSeek đã sử dụng thành công. Huawei khẳng định phương pháp mới giúp cân bằng tải tốt hơn và đạt hiệu suất vượt trội trên các bài kiểm tra benchmark.
Huawei nâng tầm cuộc chơi huấn luyện AI với kiến trúc MoGE
Trong một động thái cho thấy sự cạnh tranh ngày càng quyết liệt trên thị trường Trí tuệ Nhân tạo (AI), các nhà nghiên cứu làm việc trên mô hình ngôn ngữ lớn (LLM) Pangu của Huawei vào ngày 4 tháng 6 đã công bố một phương pháp huấn luyện AI mới. Họ tuyên bố đã cải thiện và nâng cấp cách tiếp cận ban đầu của startup AI đang lên DeepSeek, bằng cách tận dụng tối đa sức mạnh của các con chip "cây nhà lá vườn" do chính Huawei phát triển.
Tiến bộ này trong kiến trúc mô hình AI có ý nghĩa rất lớn, đặc biệt trong bối cảnh Huawei và các công ty công nghệ Trung Quốc khác đang nỗ lực tìm cách giảm sự phụ thuộc vào các công nghệ AI và chip xử lý của Hoa Kỳ.
MoGE: Bản nâng cấp của kiến trúc MoE hiệu quả từ DeepSeek
Theo tờ South China Morning Post, một bài báo khoa học vừa được xuất bản bởi nhóm Pangu của Huawei (bao gồm 22 cộng tác viên cốt lõi và 56 nhà nghiên cứu bổ sung) đã giới thiệu một khái niệm mới mang tên Mixture of Grouped Experts (MoGE), có thể tạm dịch là "Hỗn hợp các Nhóm Chuyên gia".
Đây được xem là một phiên bản nâng cấp của kỹ thuật Mixture of Experts (MoE), vốn là công nghệ đóng vai trò quan trọng trong sự thành công của các mô hình AI từ DeepSeek, những mô hình đã được chứng minh là có hiệu quả rất cao về mặt chi phí huấn luyện.
Theo bài báo của nhóm Huawei Pangu, mặc dù kiến trúc MoE mang lại chi phí thực thi thấp cho các mô hình có số lượng tham số lớn và có khả năng học tập nâng cao, nó cũng thường dẫn đến sự thiếu hiệu quả trong quá trình vận hành. Điều này xuất phát từ việc "kích hoạt không đồng đều" các "chuyên gia", dẫn đến tình trạng mất cân bằng tải và làm cản trở hiệu suất chung khi chạy mô hình trên nhiều thiết bị xử lý song song.
Trong khi đó, theo các nhà nghiên cứu của Huawei, kiến trúc MoGE mới của họ đã được cải tiến bằng cách nhóm các "chuyên gia" lại với nhau trong quá trình lựa chọn, từ đó giúp cân bằng tốt hơn khối lượng công việc được phân bổ cho từng "chuyên gia".
Trong lĩnh vực huấn luyện AI, thuật ngữ "chuyên gia" (expert) thường đề cập đến các mô hình con hoặc các thành phần được chuyên biệt hóa bên trong một mô hình AI lớn hơn. Mỗi "chuyên gia" này sẽ được thiết kế để xử lý các tác vụ cụ thể hoặc các loại dữ liệu riêng biệt. Điều này cho phép hệ thống AI tổng thể có thể tận dụng được chuyên môn đa dạng từ nhiều "chuyên gia" khác nhau để nâng cao hiệu suất tổng thể.
Huấn luyện trên 8.192 chip Ascend và kết quả vượt trội
Theo Huawei, quá trình huấn luyện mô hình Pangu mới sử dụng kiến trúc MoGE bao gồm 3 giai đoạn chính: tiền huấn luyện, mở rộng ngữ cảnh dài và hậu huấn luyện. Toàn bộ quá trình này đã bao gồm một giai đoạn tiền huấn luyện trên một bộ dữ liệu khổng lồ lên tới 13.200 tỷ token và giai đoạn mở rộng ngữ cảnh dài được thực hiện bằng cách sử dụng sức mạnh của 8.192 con chip Ascend.
Ascend là dòng bộ xử lý AI mạnh nhất do chính Huawei phát triển, được sử dụng trong các tác vụ đào tạo các mô hình AI phức tạp và là "vũ khí" chính của Huawei trong mục tiêu thách thức sự thống trị của Nvidia trong lĩnh vực thiết kế chip AI cao cấp.
Nhờ việc thử nghiệm kiến trúc MoGE mới trên các bộ xử lý thần kinh (NPU) Ascend, vốn được thiết kế đặc biệt để tăng tốc các tác vụ AI, các nhà nghiên cứu của Huawei đã nhận thấy rằng MoGE "dẫn đến sự cân bằng tải cho các 'chuyên gia' tốt hơn và thực hiện hiệu quả hơn cho cả quá trình huấn luyện và suy luận của mô hình".
Kết quả là, khi so sánh với các mô hình AI hàng đầu khác như DeepSeek-V3, Qwen2.5-72B của Alibaba và Llama-405B của Meta Platforms, mô hình Pangu mới của Huawei đã đạt được hiệu suất vượt trội trên hầu hết các bài kiểm tra điểm chuẩn (benchmark) bằng tiếng Anh nói chung và trên tất cả các bài kiểm tra điểm chuẩn bằng tiếng Trung. Nó cũng cho thấy hiệu quả cao hơn trong các tác vụ huấn luyện với ngữ cảnh dài.
Sự tự tin của Huawei vào công nghệ mới của mình là một lời khẳng định mạnh mẽ về năng lực R&D và quyết tâm vươn lên trong cuộc đua AI toàn cầu, một cuộc đua không chỉ về sức mạnh của các mô hình mà còn cả về sự tối ưu trong kiến trúc và hiệu quả của phần cứng.

Huawei nâng tầm cuộc chơi huấn luyện AI với kiến trúc MoGE
Trong một động thái cho thấy sự cạnh tranh ngày càng quyết liệt trên thị trường Trí tuệ Nhân tạo (AI), các nhà nghiên cứu làm việc trên mô hình ngôn ngữ lớn (LLM) Pangu của Huawei vào ngày 4 tháng 6 đã công bố một phương pháp huấn luyện AI mới. Họ tuyên bố đã cải thiện và nâng cấp cách tiếp cận ban đầu của startup AI đang lên DeepSeek, bằng cách tận dụng tối đa sức mạnh của các con chip "cây nhà lá vườn" do chính Huawei phát triển.
Tiến bộ này trong kiến trúc mô hình AI có ý nghĩa rất lớn, đặc biệt trong bối cảnh Huawei và các công ty công nghệ Trung Quốc khác đang nỗ lực tìm cách giảm sự phụ thuộc vào các công nghệ AI và chip xử lý của Hoa Kỳ.
MoGE: Bản nâng cấp của kiến trúc MoE hiệu quả từ DeepSeek
Theo tờ South China Morning Post, một bài báo khoa học vừa được xuất bản bởi nhóm Pangu của Huawei (bao gồm 22 cộng tác viên cốt lõi và 56 nhà nghiên cứu bổ sung) đã giới thiệu một khái niệm mới mang tên Mixture of Grouped Experts (MoGE), có thể tạm dịch là "Hỗn hợp các Nhóm Chuyên gia".
Đây được xem là một phiên bản nâng cấp của kỹ thuật Mixture of Experts (MoE), vốn là công nghệ đóng vai trò quan trọng trong sự thành công của các mô hình AI từ DeepSeek, những mô hình đã được chứng minh là có hiệu quả rất cao về mặt chi phí huấn luyện.

Theo bài báo của nhóm Huawei Pangu, mặc dù kiến trúc MoE mang lại chi phí thực thi thấp cho các mô hình có số lượng tham số lớn và có khả năng học tập nâng cao, nó cũng thường dẫn đến sự thiếu hiệu quả trong quá trình vận hành. Điều này xuất phát từ việc "kích hoạt không đồng đều" các "chuyên gia", dẫn đến tình trạng mất cân bằng tải và làm cản trở hiệu suất chung khi chạy mô hình trên nhiều thiết bị xử lý song song.
Trong khi đó, theo các nhà nghiên cứu của Huawei, kiến trúc MoGE mới của họ đã được cải tiến bằng cách nhóm các "chuyên gia" lại với nhau trong quá trình lựa chọn, từ đó giúp cân bằng tốt hơn khối lượng công việc được phân bổ cho từng "chuyên gia".
Trong lĩnh vực huấn luyện AI, thuật ngữ "chuyên gia" (expert) thường đề cập đến các mô hình con hoặc các thành phần được chuyên biệt hóa bên trong một mô hình AI lớn hơn. Mỗi "chuyên gia" này sẽ được thiết kế để xử lý các tác vụ cụ thể hoặc các loại dữ liệu riêng biệt. Điều này cho phép hệ thống AI tổng thể có thể tận dụng được chuyên môn đa dạng từ nhiều "chuyên gia" khác nhau để nâng cao hiệu suất tổng thể.
Huấn luyện trên 8.192 chip Ascend và kết quả vượt trội
Theo Huawei, quá trình huấn luyện mô hình Pangu mới sử dụng kiến trúc MoGE bao gồm 3 giai đoạn chính: tiền huấn luyện, mở rộng ngữ cảnh dài và hậu huấn luyện. Toàn bộ quá trình này đã bao gồm một giai đoạn tiền huấn luyện trên một bộ dữ liệu khổng lồ lên tới 13.200 tỷ token và giai đoạn mở rộng ngữ cảnh dài được thực hiện bằng cách sử dụng sức mạnh của 8.192 con chip Ascend.
Ascend là dòng bộ xử lý AI mạnh nhất do chính Huawei phát triển, được sử dụng trong các tác vụ đào tạo các mô hình AI phức tạp và là "vũ khí" chính của Huawei trong mục tiêu thách thức sự thống trị của Nvidia trong lĩnh vực thiết kế chip AI cao cấp.

Nhờ việc thử nghiệm kiến trúc MoGE mới trên các bộ xử lý thần kinh (NPU) Ascend, vốn được thiết kế đặc biệt để tăng tốc các tác vụ AI, các nhà nghiên cứu của Huawei đã nhận thấy rằng MoGE "dẫn đến sự cân bằng tải cho các 'chuyên gia' tốt hơn và thực hiện hiệu quả hơn cho cả quá trình huấn luyện và suy luận của mô hình".
Kết quả là, khi so sánh với các mô hình AI hàng đầu khác như DeepSeek-V3, Qwen2.5-72B của Alibaba và Llama-405B của Meta Platforms, mô hình Pangu mới của Huawei đã đạt được hiệu suất vượt trội trên hầu hết các bài kiểm tra điểm chuẩn (benchmark) bằng tiếng Anh nói chung và trên tất cả các bài kiểm tra điểm chuẩn bằng tiếng Trung. Nó cũng cho thấy hiệu quả cao hơn trong các tác vụ huấn luyện với ngữ cảnh dài.
Sự tự tin của Huawei vào công nghệ mới của mình là một lời khẳng định mạnh mẽ về năng lực R&D và quyết tâm vươn lên trong cuộc đua AI toàn cầu, một cuộc đua không chỉ về sức mạnh của các mô hình mà còn cả về sự tối ưu trong kiến trúc và hiệu quả của phần cứng.