Một mô hình AI bí ẩn đang khiến giới lập trình toàn cầu xôn xao

myle.vnreview
Mỹ Lệ
Phản hồi: 0
Theo hãng tin Reuters, một mô hình trí tuệ nhân tạo mạnh mẽ xuất hiện ẩn danh trên một nền tảng dành cho nhà phát triển phần mềm vào tuần trước đã làm dấy lên suy đoán rằng công ty khởi nghiệp DeepSeek của Trung Quốc có thể đang âm thầm thử nghiệm hệ thống thế hệ tiếp theo của mình trước khi ra mắt chính thức.

1773882001615.png

Mô hình miễn phí này, có tên là Hunter Alpha, đã xuất hiện trên nền tảng cổng AI OpenRouter vào ngày 11 tháng 3 mà không có bất kỳ thông tin nào về nhà phát triển và sau đó được nền tảng này mô tả là một "mô hình bí mật".

Trong các thử nghiệm do Reuters thực hiện, chatbot Hunter Alpha tự mô tả mình là "một mô hình AI của Trung Quốc chủ yếu được đào tạo bằng tiếng Trung" và cho biết dữ liệu đào tạo của nó kéo dài đến tháng 5 năm 2025, cùng một điểm giới hạn kiến thức được báo cáo bởi chatbot của chính DeepSeek.

Tuy nhiên, khi được hỏi về người tạo ra nó, hệ thống đã từ chối tiết lộ danh tính nhà phát triển.

"Tôi chỉ biết tên của mình, thang đo tham số và độ dài cửa sổ ngữ cảnh của mình," chatbot cho biết.

Cả DeepSeek và OpenRouter đều chưa tiết lộ danh tính người tạo ra mô hình và họ không trả lời yêu cầu bình luận. Trang hồ sơ của Hunter Alpha mô tả nó là một mô hình 1 nghìn tỷ tham số, nghĩa là nó được huấn luyện bằng khoảng một nghìn tỷ giá trị có thể điều chỉnh để xác định cách hệ thống xử lý ngôn ngữ và tạo ra phản hồi. Các mô hình có nhiều tham số hơn thường yêu cầu sức mạnh tính toán lớn hơn đáng kể để hoạt động.

1773881906565.png

Hunter Alpha mô tả nó là một mô hình 1 nghìn tỷ tham số

Hệ thống này cũng quảng cáo cửa sổ ngữ cảnh lên đến một triệu token, một thước đo lượng văn bản mà mô hình AI có thể xử lý hoặc ghi nhớ trong một lần tương tác. Một token tương ứng với một đoạn văn bản ngắn, chẳng hạn như một phần của từ.

"Sự kết hợp nổi bật là ngữ cảnh 1 triệu token của Hunter Alpha đi kèm với khả năng suy luận và truy cập miễn phí," Nabil Haouam, một kỹ sư xây dựng hệ thống tác nhân AI, cho biết.

"Hầu hết các mô hình tiên tiến với cửa sổ ngữ cảnh đó đều có chi phí thực sự khi mở rộng quy mô," ông nói thêm.

Những thông số kỹ thuật đó tương tự như kỳ vọng trên các phương tiện truyền thông địa phương đối với mô hình V4 thế hệ tiếp theo của DeepSeek, mà các phương tiện truyền thông Trung Quốc đã đưa tin có thể ra mắt sớm nhất vào tháng Tư. DeepSeek, giống như nhiều đối thủ cạnh tranh Trung Quốc khác, được đầu tư mạnh, mặc dù cấu trúc của nó khá bất thường do công ty mẹ là một công ty định lượng. Mặc dù sự trùng lặp không thiết lập mối liên hệ trực tiếp, nhưng nó đã làm gia tăng suy đoán trong giới phát triển rằng hệ thống ẩn danh này có thể là phiên bản thử nghiệm ban đầu của sản phẩm sắp ra mắt của DeepSeek.

"Mô hình chuỗi suy nghĩ có lẽ là tín hiệu mạnh nhất," Daniel Dewhurst, một kỹ sư AI đã phân tích mô hình sau khi nó được phát hành, cho biết, đề cập đến cách thức suy luận của mô hình AI.

"Phong cách suy luận rất khó che giấu và có xu hướng phản ánh cách thức mô hình được đào tạo."

Ông cũng cho biết thêm, quy mô và dung lượng bộ nhớ của Hunter Alpha cũng phù hợp với các thông số kỹ thuật đã được lưu hành cho DeepSeek V4 từ đầu năm nay.

Tuy nhiên, một số nhà phát triển cảnh báo rằng bằng chứng liên kết mô hình này với DeepSeek vẫn chưa đủ thuyết phục. “Phân tích của tôi cho thấy Hunter Alpha có thể không phải là DeepSeek V4,” Umur Ozkul, người điều hành các bài kiểm tra hiệu năng AI độc lập, cho biết, viện dẫn sự khác biệt trong hành vi liên quan đến token và các mô hình kiến trúc khi so sánh với các hệ thống hiện có của DeepSeek.

Ông nói rằng việc suy đoán liên kết mô hình này với DeepSeek là điều dễ hiểu nếu xét đến thời điểm và khả năng được quảng cáo.

Thử nghiệm của nhà phát triển

Việc ra mắt mô hình ẩn danh không phải là điều bất thường, vì các nền tảng như OpenRouter cho phép các nhà phát triển gửi truy vấn đến hàng chục mô hình AI thông qua một giao diện duy nhất, khiến chúng trở thành nơi thử nghiệm phổ biến cho các hệ thống mới.

Một mô hình ẩn danh có tên Pony Alpha đã xuất hiện trên OpenRouter vào tháng Hai trước khi công ty Zhipu AI của Trung Quốc xác nhận nó là một phần của hệ thống GLM-5 của họ năm ngày sau đó.

Một thông báo trên trang hồ sơ của Hunter Alpha cho biết tất cả các lời nhắc và hoàn thành cho mô hình “được nhà cung cấp ghi lại và có thể được sử dụng để cải thiện mô hình,” nhấn mạnh thực tiễn phổ biến trong ngành về việc sử dụng các lần ra mắt mô hình bí mật để có phản hồi khách quan.

Mô hình này đã được áp dụng nhanh chóng sau khi xuất hiện trên nền tảng và đã xử lý hơn 160 tỷ token tính đến Chủ nhật, theo thống kê của OpenRouter.

Phần lớn hoạt động đến từ các công cụ phát triển phần mềm và khung tác nhân AI như OpenClaw, cho phép các hệ thống AI tự động lập kế hoạch nhiệm vụ và tương tác với phần mềm bên ngoài.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9tb3QtbW8taGluaC1haS1iaS1hbi1kYW5nLWtoaWVuLWdpb2ktbGFwLXRyaW5oLXRvYW4tY2F1LXhvbi14YW8uODA4MTEv
Top