Vũ Nguyễn
Writer
Trong cuộc phỏng vấn trên podcast Training Data của Sequoia Capital (Sequoia Capital là một trong những quỹ đầu tư mạo hiểm (venture capital) nổi tiếng và có ảnh hưởng nhất thế giới, chuyên đầu tư vào các công ty khởi nghiệp công nghệ ở giai đoạn đầu và giai đoạn tăng trưởng), Dylan Patel, nhà sáng lập SemiAnalysis (công ty nghiên cứu và tư vấn chuyên sâu về ngành bán dẫn và trí tuệ nhân tạo), đã chia sẻ hàng loạt nhận định đáng chú ý về tương lai của ngành AI, từ quy mô thị trường suy luận, hạ tầng điện toán, cuộc cạnh tranh giữa GPU và TPU cho tới chiến lược dài hạn của Nvidia.
Theo Patel, AI suy luận (AI inference) sẽ trở thành một trong những thị trường lớn nhất thế giới, chiếm vài phần trăm GDP toàn cầu. Ông cũng dự báo rằng vào năm 2030, riêng nhu cầu điện toán của OpenAI và Anthropic sẽ vượt 100 gigawatt, còn đến năm 2040, hơn một nửa năng lực tính toán mới của thế giới có thể được triển khai trong không gian.
Ông Patel (ngoài cùng bên trái)
Ông lấy ví dụ, Claude Opus thế hệ mới có thể xử lý hơn gấp đôi số nhiệm vụ so với phiên bản trước, trong khi tổng công suất tính toán toàn cầu không tăng tương ứng trong cùng khoảng thời gian.
Điều này dẫn tới một thực tế là nhu cầu luôn vượt nguồn cung.
Ông cho rằng trong khoảng 3 đến 5 năm tới, việc đặt trung tâm dữ liệu trong không gian vẫn chưa mang nhiều ý nghĩa về mặt kinh tế. Tuy nhiên, bức tranh sẽ thay đổi hoàn toàn trong hai thập kỷ tới.
Patel dự báo đến năm 2030, riêng OpenAI và Anthropic sẽ cần hơn 100 gigawatt công suất điện toán. Nếu tính thêm Meta, Google cùng các công ty AI lớn khác, tổng nhu cầu sẽ còn cao hơn rất nhiều.
Đến năm 2040, quy mô này có thể đạt tới mức terawatt.
Theo ông, khi khả năng mở rộng nguồn điện trên mặt đất dần chạm giới hạn, việc xây dựng các trung tâm dữ liệu trong không gian sẽ trở nên hấp dẫn hơn về mặt kinh tế.
"Nếu nhìn về năm 2040, hơn một nửa công suất tính toán mới sẽ được triển khai ngoài không gian."
Theo ông, thế hệ GPU Hopper và Blackwell của Nvidia giúp cải thiện hiệu năng khoảng 30 lần trong điều kiện tối ưu, nhưng mức tăng về năng lực AI trên thực tế còn lớn hơn nhiều.
Lý do nằm ở việc tối ưu đồng thời nhiều lớp của hệ thống, từ phần cứng, phần mềm đến kiến trúc mô hình.
Ông giải thích rằng nếu mỗi lớp chỉ được cải thiện riêng lẻ gấp đôi, tổng hiệu quả có thể chỉ tăng khoảng 8 lần. Nhưng nếu toàn bộ các lớp được thiết kế đồng bộ, hiệu quả tổng thể có thể tăng tới 100 lần.
DeepSeek được Patel xem là ví dụ điển hình. Mô hình MoE của hãng được tối ưu đặc biệt cho GPU Hopper nên đạt hiệu năng rất cao trên nền tảng Nvidia nhưng hoạt động kém hơn trên TPU của Google.
Trong khi đó, mô hình của Anthropic có mật độ tham số cao hơn và phù hợp với TPU, còn OpenAI lại nghiêng nhiều hơn về GPU.
Theo Patel, TPU là một con chip rất mạnh, xử lý hiệu quả các mô hình của DeepMind và phần lớn quá trình huấn luyện của Anthropic, nhưng không phải mô hình nào cũng tận dụng được kiến trúc này.
Ông cũng cho rằng cái gọi là "hào lũy CUDA" thực chất không chỉ nằm ở phần mềm CUDA, mà còn ở việc hầu hết các mô hình mã nguồn mở hiện nay, như DeepSeek, Kimi, Alibaba hay Tencent, đều được tối ưu cho GPU. Điều này khiến chúng hoạt động kém hiệu quả trên TPU.
Theo ông, Huang không muốn thị trường chỉ do vài "ông lớn" như Google, Amazon hay Microsoft kiểm soát.
Đó là lý do Nvidia tích cực hỗ trợ các nhà cung cấp dịch vụ đám mây mới nổi, thường được gọi là Neo Cloud, cũng như đầu tư vào nhiều phòng thí nghiệm AI trên khắp thế giới.
Patel nhận định, nếu OpenAI, Anthropic và Google thống trị toàn bộ thị trường mô hình AI, trong khi hạ tầng điện toán chỉ nằm trong tay các nhà cung cấp đám mây lớn, Nvidia sẽ rơi vào thế bất lợi.
Ngược lại, việc bán GPU cho những doanh nghiệp như CoreWeave hay Crusoe sẽ giúp Nvidia làm suy yếu lợi thế của TPU (Google) và Trainium (Amazon) trong dài hạn.
Theo Patel, dự án đã nhận được hơn 50 triệu USD, tương đương khoảng 1,3 nghìn tỷ đồng, tài trợ dưới dạng phần cứng từ nhiều công ty như CoreWeave, Oracle, Microsoft, Amazon, Google và OpenAI.
InferenceX liên tục kiểm thử các mô hình AI mới trên hơn 15 loại chip khác nhau.
Kết quả đáng chú ý nhất là với cùng chất lượng đầu ra, chi phí suy luận AI giảm khoảng 60 lần mỗi năm.
Đồng thời, hiệu quả tính toán trên mỗi watt điện cũng tăng khoảng 40 lần, cho thấy sự tiến bộ không chỉ đến từ phần cứng mà còn từ việc tối ưu toàn bộ hệ thống.
Một trong những sản phẩm quan trọng của InferenceX là "đường cong Pareto", cho phép xác định cấu hình tối ưu giữa tốc độ phản hồi và thông lượng xử lý đối với từng bài toán cụ thể.
Theo Patel, đây cũng là nguyên lý đứng sau nhiều tính năng thương mại như chế độ Claude Code Fast của Anthropic hay các hàng đợi ưu tiên trong dịch vụ của OpenAI.
Ông lớn lên trong gia đình kinh doanh nhà nghỉ và trạm xăng tại Mỹ. Patel từng hài hước kể rằng mạng nơron đầu tiên ông xây dựng dùng để dự đoán khách hàng sẽ mua loại thuốc lá nào chỉ dựa trên ngoại hình.
Năm 8 tuổi, chiếc Xbox 360 gặp lỗi "vòng tròn đỏ chết chóc" khiến ông tự tháo máy để sửa, từ đó bắt đầu đam mê phần cứng máy tính.
Từ năm 12 tuổi, Patel đã tích cực tham gia các diễn đàn công nghệ. Sau khi tốt nghiệp đại học, ông làm việc tại một quỹ đầu tư định lượng nhưng sớm nghỉ việc.
Năm 2020, Patel thành lập SemiAnalysis và bắt đầu xuất bản các bài phân tích chuyên sâu về ngành bán dẫn. Có thời gian ông lái xe bán tải, sống trong lều gắn trên nóc xe, đi khắp các công viên quốc gia tại Mỹ để vừa du lịch vừa viết bài.
Sau đó, Patel tiếp tục dành gần một năm sống tại Mỹ Latinh và tham dự hơn 40 hội nghị về chuỗi cung ứng mỗi năm.
Hiện nay, SemiAnalysis đã trở thành một trong những tổ chức nghiên cứu có ảnh hưởng lớn trong lĩnh vực bán dẫn và hạ tầng AI, với gần 90 nhân sự và doanh thu được cho là xấp xỉ 100 triệu USD, tương đương khoảng 2,6 nghìn tỷ đồng mỗi năm.
Theo Patel, AI suy luận (AI inference) sẽ trở thành một trong những thị trường lớn nhất thế giới, chiếm vài phần trăm GDP toàn cầu. Ông cũng dự báo rằng vào năm 2030, riêng nhu cầu điện toán của OpenAI và Anthropic sẽ vượt 100 gigawatt, còn đến năm 2040, hơn một nửa năng lực tính toán mới của thế giới có thể được triển khai trong không gian.
Ông Patel (ngoài cùng bên trái)
AI suy luận có thể trở thành thị trường lớn hơn cả dầu mỏ
Patel cho rằng giá trị kinh tế của AI suy luận sẽ vượt xa nhiều ngành công nghiệp hiện nay.Theo ông, mỗi thế hệ mô hình AI mới không chỉ mạnh hơn mà còn có thể thực hiện nhiều loại công việc hơn trước. Giá trị kinh tế vì thế tăng nhanh hơn rất nhiều so với tốc độ mở rộng hạ tầng điện toán."Dù là mô hình mã nguồn mở hay mã nguồn đóng, AI suy luận sẽ trở thành một trong những thị trường lớn nhất thế giới, thậm chí lớn hơn cả dầu mỏ."
Ông lấy ví dụ, Claude Opus thế hệ mới có thể xử lý hơn gấp đôi số nhiệm vụ so với phiên bản trước, trong khi tổng công suất tính toán toàn cầu không tăng tương ứng trong cùng khoảng thời gian.
Điều này dẫn tới một thực tế là nhu cầu luôn vượt nguồn cung.
"Tình trạng thiếu hụt sức mạnh tính toán sẽ còn kéo dài, bởi khả năng mở rộng các tác vụ của mô hình AI luôn tăng nhanh hơn tốc độ xây dựng hạ tầng điện toán."
Đến năm 2040, phần lớn trung tâm dữ liệu mới sẽ nằm ngoài không gian
Một trong những dự đoán táo bạo nhất của Patel là tương lai của các trung tâm dữ liệu ngoài Trái Đất.Ông cho rằng trong khoảng 3 đến 5 năm tới, việc đặt trung tâm dữ liệu trong không gian vẫn chưa mang nhiều ý nghĩa về mặt kinh tế. Tuy nhiên, bức tranh sẽ thay đổi hoàn toàn trong hai thập kỷ tới.
Patel dự báo đến năm 2030, riêng OpenAI và Anthropic sẽ cần hơn 100 gigawatt công suất điện toán. Nếu tính thêm Meta, Google cùng các công ty AI lớn khác, tổng nhu cầu sẽ còn cao hơn rất nhiều.
Đến năm 2040, quy mô này có thể đạt tới mức terawatt.
Theo ông, khi khả năng mở rộng nguồn điện trên mặt đất dần chạm giới hạn, việc xây dựng các trung tâm dữ liệu trong không gian sẽ trở nên hấp dẫn hơn về mặt kinh tế.
"Nếu nhìn về năm 2040, hơn một nửa công suất tính toán mới sẽ được triển khai ngoài không gian."
Hiệu quả AI không chỉ đến từ phần cứng
Patel cũng phản bác quan điểm cho rằng bước tiến của AI trong vài năm gần đây chủ yếu đến từ GPU mạnh hơn.Theo ông, thế hệ GPU Hopper và Blackwell của Nvidia giúp cải thiện hiệu năng khoảng 30 lần trong điều kiện tối ưu, nhưng mức tăng về năng lực AI trên thực tế còn lớn hơn nhiều.
Lý do nằm ở việc tối ưu đồng thời nhiều lớp của hệ thống, từ phần cứng, phần mềm đến kiến trúc mô hình.
Ông giải thích rằng nếu mỗi lớp chỉ được cải thiện riêng lẻ gấp đôi, tổng hiệu quả có thể chỉ tăng khoảng 8 lần. Nhưng nếu toàn bộ các lớp được thiết kế đồng bộ, hiệu quả tổng thể có thể tăng tới 100 lần.
DeepSeek được Patel xem là ví dụ điển hình. Mô hình MoE của hãng được tối ưu đặc biệt cho GPU Hopper nên đạt hiệu năng rất cao trên nền tảng Nvidia nhưng hoạt động kém hơn trên TPU của Google.
Trong khi đó, mô hình của Anthropic có mật độ tham số cao hơn và phù hợp với TPU, còn OpenAI lại nghiêng nhiều hơn về GPU.
Theo Patel, TPU là một con chip rất mạnh, xử lý hiệu quả các mô hình của DeepMind và phần lớn quá trình huấn luyện của Anthropic, nhưng không phải mô hình nào cũng tận dụng được kiến trúc này.
Ông cũng cho rằng cái gọi là "hào lũy CUDA" thực chất không chỉ nằm ở phần mềm CUDA, mà còn ở việc hầu hết các mô hình mã nguồn mở hiện nay, như DeepSeek, Kimi, Alibaba hay Tencent, đều được tối ưu cho GPU. Điều này khiến chúng hoạt động kém hiệu quả trên TPU.
Vì sao Jensen Huang muốn có nhiều nhà cung cấp đám mây hơn?
Patel cho rằng chiến lược của CEO Nvidia, Jensen Huang, không chỉ là bán GPU mà còn là duy trì một hệ sinh thái AI đa cực.Theo ông, Huang không muốn thị trường chỉ do vài "ông lớn" như Google, Amazon hay Microsoft kiểm soát.
Đó là lý do Nvidia tích cực hỗ trợ các nhà cung cấp dịch vụ đám mây mới nổi, thường được gọi là Neo Cloud, cũng như đầu tư vào nhiều phòng thí nghiệm AI trên khắp thế giới.
Patel nhận định, nếu OpenAI, Anthropic và Google thống trị toàn bộ thị trường mô hình AI, trong khi hạ tầng điện toán chỉ nằm trong tay các nhà cung cấp đám mây lớn, Nvidia sẽ rơi vào thế bất lợi.
Ngược lại, việc bán GPU cho những doanh nghiệp như CoreWeave hay Crusoe sẽ giúp Nvidia làm suy yếu lợi thế của TPU (Google) và Trainium (Amazon) trong dài hạn.
InferenceX: chi phí suy luận AI giảm tới 60 lần mỗi năm
Đội ngũ SemiAnalysis cũng xây dựng hệ thống đánh giá hiệu năng AI mang tên InferenceX.Theo Patel, dự án đã nhận được hơn 50 triệu USD, tương đương khoảng 1,3 nghìn tỷ đồng, tài trợ dưới dạng phần cứng từ nhiều công ty như CoreWeave, Oracle, Microsoft, Amazon, Google và OpenAI.
InferenceX liên tục kiểm thử các mô hình AI mới trên hơn 15 loại chip khác nhau.
Kết quả đáng chú ý nhất là với cùng chất lượng đầu ra, chi phí suy luận AI giảm khoảng 60 lần mỗi năm.
Đồng thời, hiệu quả tính toán trên mỗi watt điện cũng tăng khoảng 40 lần, cho thấy sự tiến bộ không chỉ đến từ phần cứng mà còn từ việc tối ưu toàn bộ hệ thống.
Một trong những sản phẩm quan trọng của InferenceX là "đường cong Pareto", cho phép xác định cấu hình tối ưu giữa tốc độ phản hồi và thông lượng xử lý đối với từng bài toán cụ thể.
Theo Patel, đây cũng là nguyên lý đứng sau nhiều tính năng thương mại như chế độ Claude Code Fast của Anthropic hay các hàng đợi ưu tiên trong dịch vụ của OpenAI.
Từ cậu bé sửa Xbox đến người sáng lập SemiAnalysis
Con đường của Dylan Patel khá khác biệt so với các nhà phân tích truyền thống.Ông lớn lên trong gia đình kinh doanh nhà nghỉ và trạm xăng tại Mỹ. Patel từng hài hước kể rằng mạng nơron đầu tiên ông xây dựng dùng để dự đoán khách hàng sẽ mua loại thuốc lá nào chỉ dựa trên ngoại hình.
Năm 8 tuổi, chiếc Xbox 360 gặp lỗi "vòng tròn đỏ chết chóc" khiến ông tự tháo máy để sửa, từ đó bắt đầu đam mê phần cứng máy tính.
Từ năm 12 tuổi, Patel đã tích cực tham gia các diễn đàn công nghệ. Sau khi tốt nghiệp đại học, ông làm việc tại một quỹ đầu tư định lượng nhưng sớm nghỉ việc.
Năm 2020, Patel thành lập SemiAnalysis và bắt đầu xuất bản các bài phân tích chuyên sâu về ngành bán dẫn. Có thời gian ông lái xe bán tải, sống trong lều gắn trên nóc xe, đi khắp các công viên quốc gia tại Mỹ để vừa du lịch vừa viết bài.
Sau đó, Patel tiếp tục dành gần một năm sống tại Mỹ Latinh và tham dự hơn 40 hội nghị về chuỗi cung ứng mỗi năm.
Hiện nay, SemiAnalysis đã trở thành một trong những tổ chức nghiên cứu có ảnh hưởng lớn trong lĩnh vực bán dẫn và hạ tầng AI, với gần 90 nhân sự và doanh thu được cho là xấp xỉ 100 triệu USD, tương đương khoảng 2,6 nghìn tỷ đồng mỗi năm.