Đằng sau mô hình AI 120 tỷ tham số của Viettel: Những gì đã biết và chưa biết

Christine May · 16:40

Viettel AI vừa công bố VT-Super-120B-A12B, một mô hình ngôn ngữ lớn (LLM) tiếng Việt quy mô 120 tỷ tham số được phát triển trên nền kiến trúc mở NVIDIA Nemotron 3 Super. Cụ thể, mô hình này đã trải qua quá trình tiếp tục tiền huấn luyện trên dữ liệu tiếng Việt, tinh chỉnh có giám sát và học tăng cường nhằm nâng cao khả năng suy luận cũng như xử lý các bài toán nghiệp vụ trong nước.

Đây là một thông báo đáng chú ý bởi nó cho thấy tham vọng của Viettel không dừng ở việc xây dựng chatbot tiếng Việt, mà hướng tới một lớp hạ tầng AI phục vụ doanh nghiệp, cơ quan nhà nước và các hệ thống vận hành thực tế. Các bạn có thể thấy, trong toàn bộ thông cáo, cụm từ xuất hiện nhiều nhất không phải là "trợ lý AI" mà là "AI chủ quyền", "dữ liệu bản địa", "nghiệp vụ doanh nghiệp", "hành chính công" và "AI Agent". Điều này cũng giúp trả lời một câu hỏi mà nhiều người đang tranh luận: VT-Super-120B-A12B có phải là một LLM của Việt Nam hay không?

Câu trả lời là có.

VT-Super-120B-A12B được xây dựng trên kiến trúc mở NVIDIA Nemotron 3 Super, có khả năng xử lý ngữ cảnh dài (Ảnh: NVIDIA)

Tuy nhiên, từ những thông tin hiện được công bố, theo tôi VT-Super-120B-A12B dường như không được phát triển theo cách huấn luyện hoàn toàn từ đầu như GPT của OpenAI, Gemini của Google hay Llama của Meta. Viettel sử dụng kiến trúc nguồn mở NVIDIA Nemotron làm nền tảng, sau đó tiếp tục huấn luyện bằng dữ liệu tiếng Việt và dữ liệu nghiệp vụ trong nước để tạo ra một mô hình mới phù hợp với nhu cầu sử dụng tại Việt Nam.

Cách tiếp cận này gần với xu hướng mà nhiều quốc gia và doanh nghiệp lớn đang lựa chọn hiện nay. Thay vì bỏ ra hàng tỷ USD để xây dựng một mô hình nền tảng từ con số 0, họ tận dụng các mô hình mã nguồn mở mạnh nhất hiện có rồi tập trung nguồn lực vào dữ liệu, quá trình huấn luyện tiếp theo và các ứng dụng thực tế. Nếu nhìn theo góc độ này, Viettel đang đi theo con đường thực dụng hơn là chạy đua tạo ra một "GPT Việt Nam".

Với người bình thường, con số 120 tỷ tham số là rất ấn tượng. Tôi thì lại tò mò ở phần dữ liệu. Trong thông cáo, Viettel cho biết mô hình được huấn luyện trên dữ liệu hành chính, dữ liệu doanh nghiệp, hội thoại thực tế và các hệ thống văn bản chuyên ngành tại Việt Nam. Nếu điều này đúng ở quy mô lớn, đây có thể là tài sản quan trọng hơn rất nhiều so với bản thân kiến trúc mô hình. Bởi thực tế hiện nay tiếng Việt là một ngôn ngữ có hàng trăm triệu người sử dụng nhưng lại thiếu dữ liệu chất lượng cao dành cho AI. Internet tiếng Việt chứa rất nhiều nội dung trùng lặp, sao chép hoặc được tạo ra để phục vụ SEO. Trong khi đó, những loại dữ liệu thực sự có giá trị cho doanh nghiệp như hồ sơ hành chính, quy trình nghiệp vụ, dữ liệu chăm sóc khách hàng hay tài liệu chuyên ngành lại rất khó thu thập và chuẩn hóa.

Nếu Viettel đã xây dựng được kho dữ liệu đủ lớn và đủ sạch trong các lĩnh vực này, lợi thế cạnh tranh của họ có thể đến từ dữ liệu chứ không phải từ số lượng tham số.

Thông cáo cũng nhấn mạnh rằng VT-Super-120B-A12B được tối ưu cho các bài toán hành chính công, pháp luật và vận hành doanh nghiệp. Đây là hướng đi khá hợp lý. Một mô hình AI có thể không viết thơ hay bằng GPT hay không giải được những bài toán suy luận phức tạp như các mô hình hàng đầu thế giới, nhưng nếu nó hiểu tốt hệ thống văn bản quy phạm pháp luật Việt Nam, hiểu quy trình hồ sơ và có thể hỗ trợ cán bộ hoặc doanh nghiệp xử lý công việc nhanh hơn, giá trị thực tế sẽ rất lớn.

Mặc dù Viettel khẳng định mô hình nằm trong nhóm dẫn đầu về độ chính xác so với các mô hình cùng quy mô, nhưng tiếc là thông cáo chưa công bố cụ thể họ đã đánh giá trên những bộ benchmark nào, đối chiếu với những mô hình nào và đạt kết quả bao nhiêu điểm.

Đó là một khác biệt rất lớn. Trong giới AI, việc nói một mô hình đạt hiệu suất cao là chưa đủ. Điều cộng đồng quan tâm hơn là mô hình được kiểm tra bằng bài test nào. Ví dụ là MMLU, MMLU-Pro, GPQA, HumanEval, GSM8K hay các bộ đánh giá tiếng Việt chuyên biệt. Chỉ khi những con số này được công bố, chúng ta mới biết VT-Super-120B-A12B đang đứng ở đâu trên bản đồ AI hiện nay.

Một điểm đáng chú ý khác là Viettel tuyên bố mô hình đã cải thiện đáng kể khả năng tiếng Việt mà không làm suy giảm hiệu năng tiếng Anh của mô hình gốc, đồng thời hạn chế hiện tượng "catastrophic forgetting", tức hiện tượng mô hình quên mất kiến thức cũ sau khi được huấn luyện thêm. Đây là thông tin khá quan trọng về mặt kỹ thuật bởi đây chính là vấn đề mà rất nhiều dự án AI địa phương gặp phải. Khi huấn luyện quá mạnh theo dữ liệu một ngôn ngữ hoặc một lĩnh vực nhất định, mô hình thường đánh đổi bằng việc giảm năng lực tổng quát. Nếu Viettel thực sự giải quyết được vấn đề này thì đó là một thành tựu đáng rất ghi nhận.

Tuy vậy, cũng giống như các tuyên bố về hiệu suất, hiện chưa có báo cáo kỹ thuật công khai để kiểm chứng mức độ cải thiện cụ thể.

Một vấn đề quan trọng của trí tuệ nhân tạo là "ảo giác". Thông cáo không đưa ra số liệu nào về tỷ lệ ảo giác hay độ chính xác khi trả lời các câu hỏi liên quan đến pháp luật và hành chính công. Đây có lẽ là câu hỏi quan trọng nhất đối với một mô hình được định vị cho doanh nghiệp và cơ quan nhà nước vì trong môi trường doanh nghiệp, việc AI trả lời sai một điều luật hay viện dẫn nhầm một quy định có thể gây hậu quả nghiêm trọng hơn nhiều so với việc trả lời sai một câu hỏi kiến thức phổ thông. Do đó, sẽ rất thú vị nếu trong thời gian tới Viettel công bố thêm các thử nghiệm thực tế trên dữ liệu pháp luật, văn bản hành chính hoặc các quy trình nghiệp vụ cụ thể.

Cuối cùng là bài toán chi phí.

Nếu nhìn từ góc độ thị trường, đây có thể là yếu tố quyết định thành công của dự án. Nhiều doanh nghiệp trong nước hiện muốn ứng dụng AI nhưng vẫn lo ngại về chi phí sử dụng các dịch vụ nước ngoài, vấn đề bảo mật dữ liệu và yêu cầu lưu trữ thông tin trong nước. Một mô hình AI do doanh nghiệp Việt Nam làm chủ, vận hành trên hạ tầng trong nước và được tối ưu cho các nhu cầu đặc thù của Việt Nam hoàn toàn có thể tạo ra lợi thế cạnh tranh riêng, ngay cả khi chưa đạt tới trình độ của GPT, Claude hay Gemini.

Do đó, với tôi, điều đáng lạc quan nhất không phải là việc Việt Nam có một mô hình 120 tỷ tham số mà là lần đầu tiên chúng ta bắt đầu thấy những nỗ lực xây dựng một hệ sinh thái AI xoay quanh dữ liệu, ngôn ngữ và quy trình vận hành của chính Việt Nam. Tuy nhiên, nếu Viettel công bố thêm các thông tin khác như mô hình đã được đánh giá bằng bộ benchmark nào, dữ liệu tiếng Việt được huấn luyện ở quy mô bao lớn, độ chính xác trên các tác vụ pháp luật và hành chính ra sao, tỷ lệ ảo giác có được cải thiện đáng kể hay không và chi phí triển khai thực tế cho doanh nghiệp sẽ ở mức nào... thì sẽ rất tuyệt vời. Tôi thấy lần nào các hãng AI ra mắt mô hình/ phiên bản mô hình mới cũng đều công bố những thông tin này, nên nghĩ đây không phải là thông tin bí mật gì, đúng không?

Nếu Viettel tiếp tục công bố các số liệu đó trong thời gian tới, chúng ta sẽ có cơ sở rõ ràng hơn để đánh giá liệu VT-Super-120B-A12B chỉ là một bước tiến đáng khích lệ hay thực sự là cột mốc quan trọng đầu tiên trên hành trình xây dựng AI chủ quyền của Việt Nam.