Bí mật bên trong DeepSeek, tại sao 'Bố Già AI' tại Meta lại ngợi khen?

Phương Huyền
Phương Huyền
Phản hồi: 0
Trong bối cảnh cuộc đua trí tuệ nhân tạo (AI) toàn cầu ngày càng trở nên khốc liệt, sự trỗi dậy của DeepSeek, một công ty AI đến từ Trung Quốc, đã thu hút sự chú ý của giới công nghệ, đặc biệt là sau khi Giám đốc khoa học AI của Meta, Yann LeCun, công khai đánh giá cao thành tựu của họ. Theo LeCun, bài học lớn nhất từ thành công của DeepSeek không phải là sự cạnh tranh từ Trung Quốc, mà là giá trị của việc duy trì các mô hình AI dưới dạng mã nguồn mở.
1738030389272.png

Ảnh: Asia Times
LeCun khẳng định rằng các mô hình AI mã nguồn mở đang dần vượt mặt các mô hình độc quyền. Ông chỉ ra rằng DeepSeek R1, mô hình AI mới nhất của công ty, được xây dựng dựa trên mã nguồn mở tương tự như Llama của Meta. Điều này trái ngược với xu hướng của OpenAI, một công ty ban đầu được thành lập với sứ mệnh phát triển AI vì lợi ích của nhân loại, nhưng gần đây lại chuyển sang mô hình AI nguồn đóng.
LeCun cho rằng DeepSeek đã hưởng lợi rất nhiều từ việc chia sẻ nghiên cứu mở. Các nhà khoa học của công ty đã xây dựng những ý tưởng mới dựa trên công trình của người khác, và đồng thời công bố các kết quả nghiên cứu của mình để mọi người cùng hưởng lợi. Chính sức mạnh của nghiên cứu mở và mã nguồn mở đã tạo điều kiện cho sự phát triển nhanh chóng của DeepSeek. CEO Meta Mark Zuckerberg cũng thể hiện sự ủng hộ mạnh mẽ với mô hình mã nguồn mở, khẳng định rằng nó sẽ giúp ngành công nghệ trở nên sôi động hơn.
Những người ủng hộ mã nguồn mở lập luận rằng nó cho phép công nghệ phát triển nhanh chóng hơn vì bất kỳ ai cũng có thể sửa đổi và phân phối lại mã nguồn. Ngược lại, những người ủng hộ mã nguồn đóng cho rằng nó an toàn hơn vì được giữ kín, khó bị chỉnh sửa và phát tán hơn.
Sự thành công của DeepSeek càng được củng cố khi công ty công bố mô hình ngôn ngữ lớn (LLM) DeepSeek V3 vào cuối năm 2024. Mặc dù vẫn còn một số vấn đề liên quan đến phản hồi, mô hình này đã được đánh giá rất cao vì chỉ mất hai tháng để xây dựng với chi phí dưới 6 triệu USD, đồng thời sử dụng GPU H800 bị Nvidia hạ sức mạnh để tuân thủ lệnh cấm của Mỹ. Đáng chú ý, DeepSeek V3 đã vượt qua các mô hình hàng đầu như Llama 3.1 của Meta, GPT-4o của OpenAI, và Claude Sonnet 3.5 của Anthropic trong nhiều bài kiểm tra chuẩn.
Không dừng lại ở đó, vào ngày 20/1, DeepSeek tiếp tục ra mắt mô hình mới "có khả năng lý luận" DeepSeek R1, và công khai mã nguồn trên Github. Kết quả kiểm tra của bên thứ ba cho thấy R1 vượt trội so với o1 mới nhất của OpenAI trong nhiều bài kiểm tra. Điều đáng nói là chi phí vận hành của R1 thấp hơn rất nhiều so với o1, chỉ 2,19 USD so với 60 USD cho một triệu token đầu ra.
Là một trong những người tiên phong trong lĩnh vực AI, cùng với Geoffrey Hinton và Yoshua Bengio, Yann LeCun (hay còn được gọi là "bố già AI") đã nhiều lần khẳng định rằng AI không phải là mối đe dọa đối với nhân loại. Quan điểm này của ông trái ngược với những người có tầm ảnh hưởng khác như Elon Musk.
Tóm lại, sự trỗi dậy của DeepSeek không chỉ là một câu chuyện thành công về AI của Trung Quốc, mà còn là một minh chứng rõ ràng cho sức mạnh của mã nguồn mở. Với sự ủng hộ của một nhân vật quan trọng như Yann LeCun, mô hình mã nguồn mở có thể sẽ tiếp tục đóng vai trò quan trọng trong sự phát triển của AI trong tương lai.
Tổng hợp
#DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top