Sasha
Writer
Trong một bài báo do người sáng lập Liang Wenfeng đồng sáng tác, công ty khởi nghiệp này cho rằng thành công của mình là nhờ phương pháp đồng thiết kế phần cứng - phần mềm.
Theo tờ SCMP, phòng nghiên cứu trí tuệ nhân tạo (AI) của DeepSeek vừa công bố một bài báo nghiên cứu mới lần đầu tiên tiết lộ chi tiết về cách công ty này xây dựng một trong những hệ thống AI nguồn mở mạnh mẽ nhất thế giới với chi phí chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh.
"Thông tin chi tiết về DeepSeek-V3: Thách thức về quy mô và suy ngẫm về phần cứng cho kiến trúc AI", do người sáng lập DeepSeek Liang Wenfeng đồng sáng tác và phát hành vào ngày 14/5, cho rằng bước đột phá của công ty khởi nghiệp này trong việc đào tạo các hệ thống AI hiệu suất cao, tiết kiệm chi phí là nhờ phương pháp đồng thiết kế phần cứng và phần mềm.
"DeepSeek-V3, được đào tạo trên 2.048 GPU Nvidia H800, chứng minh cách đồng thiết kế mô hình nhận biết phần cứng có thể giải quyết hiệu quả những thách thức này, cho phép đào tạo và suy luận tiết kiệm chi phí ở quy mô lớn", các nhà nghiên cứu đã viết. DeepSeek và chủ sở hữu quỹ đầu cơ High-Flyer trước đó đã tích trữ H800, mà Nvidia ban đầu thiết kế cho thị trường Trung Quốc để tuân thủ các hạn chế xuất khẩu của Mỹ nhưng đã bị cấm xuất khẩu sang quốc gia này vào năm 2023.
Theo bài báo, phương pháp đào tạo của công ty khởi nghiệp này bắt nguồn từ nhận thức của nhóm về các hạn chế về phần cứng và "chi phí cắt cổ" của việc đào tạo các mô hình ngôn ngữ lớn (LLM) - công nghệ đằng sau các chatbot AI như ChatGPT của OpenAI.
Bài báo nêu chi tiết về các tối ưu hóa kỹ thuật giúp tăng hiệu quả bộ nhớ, hợp lý hóa giao tiếp giữa các chip và nâng cao hiệu suất cơ sở hạ tầng AI tổng thể - những tiến bộ chính để giảm chi phí vận hành trong khi mở rộng khả năng. Các nhà nghiên cứu cho biết những điều này cung cấp "bản thiết kế thực tế cho sự đổi mới trong các hệ thống AI thế hệ tiếp theo".
DeepSeek cũng nhấn mạnh việc sử dụng kiến trúc mô hình hỗn hợp các chuyên gia (MoE), một phương pháp học máy chia một mô hình AI thành các mạng con riêng biệt hoặc các chuyên gia, mỗi mạng tập trung vào một tập hợp con dữ liệu đầu vào trong khi làm việc cộng tác.
Phương pháp này, được cho là giúp giảm chi phí tính toán trước khi đào tạo và đạt hiệu suất nhanh hơn trong quá trình suy luận, hiện đã được nhiều nhà phát triển AI Trung Quốc khác áp dụng rộng rãi, bao gồm Alibaba Group Holding trong họ mô hình Qwen3 mới nhất của mình, trong đó sáu biến thể sử dụng kiến trúc MoE.
Việc DeepSeek phát hành mô hình V3 cơ bản vào tháng 12 năm ngoái và sau đó là mô hình lý luận R1 vào tháng sau đã gây chấn động ngành công nghệ toàn cầu và thị trường chứng khoán, khiến cổ phiếu liên quan đến AI lao dốc.
Kể từ đó, công ty đã giữ im lặng về các kế hoạch nghiên cứu trong tương lai nhưng vẫn duy trì sự quan tâm của công chúng bằng các bản phát hành nghiên cứu thường xuyên.
Trong khi đó, cuộc đua giữa các công ty công nghệ Trung Quốc để tuyên bố những tiến bộ mới đã tăng tốc. Trong sáu tháng kể từ khi phát hành V3, các gã khổng lồ công nghệ Trung Quốc đã tung ra một loạt các hệ thống AI mới với hướng tiếp tương tự DeepSeek.
Tháng trước, Baidu đã ra mắt các mô hình Ernie 4.5 Turbo và X1 Turbo mới nhất của mình, tự hào về khả năng lý luận đa phương thức và giá thấp hơn 40% so với DeepSeek-V3.
Alibaba đã giới thiệu thế hệ mới nhất của các mô hình Qwen vào tháng trước. Theo LiveBench, một nền tảng của bên thứ ba chuyên đánh giá chuẩn các mô hình AI, Qwen3 đã vượt qua DeepSeek-V3 để trở thành mô hình AI nguồn mở hàng đầu thế giới ngay sau khi phát hành.
Trước khi Qwen3 được phát hành, DeepSeek-R1 đã giữ vị trí hàng đầu trong bảng xếp hạng LiveBench kể từ khi phát hành vào tháng 1.
Các bản phát hành mới nhất của DeepSeek bao gồm một bản cập nhật nhỏ cho mô hình V3 vào cuối tháng 3 và một hệ thống chuyên dụng có tên là Prover-V2 để xử lý các phép chứng minh toán học, được công ty lặng lẽ ra mắt vào cuối tháng 4 trong bối cảnh có nhiều đồn đoán về ngày phát hành phiên bản kế nhiệm R1.

Theo tờ SCMP, phòng nghiên cứu trí tuệ nhân tạo (AI) của DeepSeek vừa công bố một bài báo nghiên cứu mới lần đầu tiên tiết lộ chi tiết về cách công ty này xây dựng một trong những hệ thống AI nguồn mở mạnh mẽ nhất thế giới với chi phí chỉ bằng một phần nhỏ so với các đối thủ cạnh tranh.
"Thông tin chi tiết về DeepSeek-V3: Thách thức về quy mô và suy ngẫm về phần cứng cho kiến trúc AI", do người sáng lập DeepSeek Liang Wenfeng đồng sáng tác và phát hành vào ngày 14/5, cho rằng bước đột phá của công ty khởi nghiệp này trong việc đào tạo các hệ thống AI hiệu suất cao, tiết kiệm chi phí là nhờ phương pháp đồng thiết kế phần cứng và phần mềm.
"DeepSeek-V3, được đào tạo trên 2.048 GPU Nvidia H800, chứng minh cách đồng thiết kế mô hình nhận biết phần cứng có thể giải quyết hiệu quả những thách thức này, cho phép đào tạo và suy luận tiết kiệm chi phí ở quy mô lớn", các nhà nghiên cứu đã viết. DeepSeek và chủ sở hữu quỹ đầu cơ High-Flyer trước đó đã tích trữ H800, mà Nvidia ban đầu thiết kế cho thị trường Trung Quốc để tuân thủ các hạn chế xuất khẩu của Mỹ nhưng đã bị cấm xuất khẩu sang quốc gia này vào năm 2023.
Theo bài báo, phương pháp đào tạo của công ty khởi nghiệp này bắt nguồn từ nhận thức của nhóm về các hạn chế về phần cứng và "chi phí cắt cổ" của việc đào tạo các mô hình ngôn ngữ lớn (LLM) - công nghệ đằng sau các chatbot AI như ChatGPT của OpenAI.
Bài báo nêu chi tiết về các tối ưu hóa kỹ thuật giúp tăng hiệu quả bộ nhớ, hợp lý hóa giao tiếp giữa các chip và nâng cao hiệu suất cơ sở hạ tầng AI tổng thể - những tiến bộ chính để giảm chi phí vận hành trong khi mở rộng khả năng. Các nhà nghiên cứu cho biết những điều này cung cấp "bản thiết kế thực tế cho sự đổi mới trong các hệ thống AI thế hệ tiếp theo".
DeepSeek cũng nhấn mạnh việc sử dụng kiến trúc mô hình hỗn hợp các chuyên gia (MoE), một phương pháp học máy chia một mô hình AI thành các mạng con riêng biệt hoặc các chuyên gia, mỗi mạng tập trung vào một tập hợp con dữ liệu đầu vào trong khi làm việc cộng tác.
Phương pháp này, được cho là giúp giảm chi phí tính toán trước khi đào tạo và đạt hiệu suất nhanh hơn trong quá trình suy luận, hiện đã được nhiều nhà phát triển AI Trung Quốc khác áp dụng rộng rãi, bao gồm Alibaba Group Holding trong họ mô hình Qwen3 mới nhất của mình, trong đó sáu biến thể sử dụng kiến trúc MoE.
Việc DeepSeek phát hành mô hình V3 cơ bản vào tháng 12 năm ngoái và sau đó là mô hình lý luận R1 vào tháng sau đã gây chấn động ngành công nghệ toàn cầu và thị trường chứng khoán, khiến cổ phiếu liên quan đến AI lao dốc.
Kể từ đó, công ty đã giữ im lặng về các kế hoạch nghiên cứu trong tương lai nhưng vẫn duy trì sự quan tâm của công chúng bằng các bản phát hành nghiên cứu thường xuyên.
Trong khi đó, cuộc đua giữa các công ty công nghệ Trung Quốc để tuyên bố những tiến bộ mới đã tăng tốc. Trong sáu tháng kể từ khi phát hành V3, các gã khổng lồ công nghệ Trung Quốc đã tung ra một loạt các hệ thống AI mới với hướng tiếp tương tự DeepSeek.
Tháng trước, Baidu đã ra mắt các mô hình Ernie 4.5 Turbo và X1 Turbo mới nhất của mình, tự hào về khả năng lý luận đa phương thức và giá thấp hơn 40% so với DeepSeek-V3.
Alibaba đã giới thiệu thế hệ mới nhất của các mô hình Qwen vào tháng trước. Theo LiveBench, một nền tảng của bên thứ ba chuyên đánh giá chuẩn các mô hình AI, Qwen3 đã vượt qua DeepSeek-V3 để trở thành mô hình AI nguồn mở hàng đầu thế giới ngay sau khi phát hành.
Trước khi Qwen3 được phát hành, DeepSeek-R1 đã giữ vị trí hàng đầu trong bảng xếp hạng LiveBench kể từ khi phát hành vào tháng 1.
Các bản phát hành mới nhất của DeepSeek bao gồm một bản cập nhật nhỏ cho mô hình V3 vào cuối tháng 3 và một hệ thống chuyên dụng có tên là Prover-V2 để xử lý các phép chứng minh toán học, được công ty lặng lẽ ra mắt vào cuối tháng 4 trong bối cảnh có nhiều đồn đoán về ngày phát hành phiên bản kế nhiệm R1.