Một góc khuất ít ai để ý trong cuộc đua AI video

Derpy · 09:45 Hôm qua

Mọi người hay tập trung vào chi phí GPU, nhưng Ethan He, người từng xây Grok Imagine tại xAI từ số 0, tiết lộ rằng chi phí lưu trữ và truyền tải dữ liệu video mới là khoản ngầm khổng lồ, có thể lên tới vài triệu USD mỗi tháng, chưa tính GPU.

Lý do là video nặng hơn văn bản nhiều lần. Mỗi lần thử nghiệm lại mô hình là phải kéo toàn bộ dữ liệu một lần nữa, và trên cloud công cộng như AWS, băng thông còn đắt hơn cả lưu trữ. Ai tự xây trung tâm dữ liệu như xAI thì tránh được khoản này. Ai dùng cloud thì chạy đua với hóa đơn không đáy.

Trong thế giới AI, chúng ta thường nghe về những con số "khủng" mà các ông lớn như xAI hay OpenAI chi ra cho sức mạnh tính toán. xAI đã đổ hơn 1 tỷ USD (tương đương khoảng 25.400 tỷ VNĐ) để xây dựng cụm siêu máy tính Colossus, còn OpenAI được cho là phải trả hàng trăm triệu USD (tương đương vài nghìn tỷ VNĐ) mỗi tháng cho hóa đơn điện toán. Với Anthropic, số tiền họ huy động được trong các vòng gọi vốn gần đây dường như đồng nghĩa với số giờ sử dụng GPU.

Hầu hết các cuộc thảo luận đều xoay quanh sức mạnh tính toán, biến GPU thành "tiền tệ" chung để đánh giá năng lực của một công ty AI, và cũng là con số nổi bật nhất trong mọi báo cáo tài chính.

Thế nhưng, một cuộc phỏng vấn gần đây trên podcast Latent Space với Ethan He, cựu nhà nghiên cứu của xAI, đã khiến mình phải suy nghĩ lại. Ethan gia nhập xAI vào giữa năm 2025, khi mọi thứ còn là con số 0: không hạ tầng, không dữ liệu, không mô hình sẵn có. Vậy mà chỉ trong ba tháng, với một đội ngũ nhỏ, anh ấy đã xây dựng nên hệ thống tạo video Grok Imagine từ đầu, đạt đến trình độ hàng đầu trong ngành lúc bấy giờ.

Khi nói về chi phí đào tạo các mô hình video quy mô lớn, Ethan đã đưa ra một con số khiến mình chợt nhận ra rằng, có lẽ ngành này đã tính toán sai lầm về chi phí từ trước đến nay. Anh ấy nói: "Chỉ riêng việc lưu trữ những video và dữ liệu đặc trưng đó đã tốn vài triệu USD (tương đương vài chục đến vài trăm tỷ VNĐ) mỗi tháng – đó là chưa kể chi phí tính toán."

Vậy, để xây dựng một mô hình video lớn từ con số 0, cần bao nhiêu tiền? Giả sử đội ngũ của bạn có nguồn lực dồi dào, GPU có thể dùng thoải mái. Ngay cả như vậy, bạn vẫn có thể đánh giá thấp chi phí khổng lồ của việc này.

Hãy hình dung bạn muốn đào tạo một mô hình tạo video đẳng cấp thế giới. Bạn thu thập 1 tỷ video từ internet, mỗi video trung bình 5 MB – đây đã là một ước tính khá khiêm tốn. Chỉ riêng khoản này, bạn đã cần 5 PB (petabyte) dung lượng lưu trữ. Theo giá của AWS S3, 5 PB lưu trữ tiêu chuẩn sẽ tốn khoảng 100.000 USD (tương đương khoảng 2,54 tỷ VNĐ) mỗi tháng.

Nhưng đó mới chỉ là video gốc.

Trước khi đào tạo mô hình video, cách làm phổ biến trong ngành là sử dụng VAE (Variational Autoencoder – bộ mã hóa tự động biến phân) để nén video thành các vector đặc trưng trong "không gian tiềm ẩn" (latent space). Bởi vì một đoạn video khi được mở rộng thành pixel có thể chứa hàng tỷ token, không Transformer nào có thể xử lý được, nên phải nén thành các vector liên tục mà mô hình có thể hiểu. Vấn đề là, dữ liệu đặc trưng đã nén này có kích thước tương đương với video gốc và cũng cần được lưu trữ dài hạn, sẵn sàng để sử dụng bất cứ lúc nào. Cộng cả hai khoản này lại, với hàng chục PB dữ liệu, chi phí lưu trữ hàng tháng đã vượt quá 200.000 USD (tương đương khoảng 5,08 tỷ VNĐ).

Và điều bất ngờ nhất chính là: chi phí truyền tải dữ liệu (egress/ingress). Ethan chia sẻ rằng, chi phí băng thông để tải 1 tỷ video từ internet trên AWS còn đắt hơn cả chi phí lưu trữ chúng. Mỗi lần đào tạo, dữ liệu phải được kéo từ lớp lưu trữ đến lớp tính toán để chạy. Việc đào tạo mô hình video không giống như mô hình ngôn ngữ, đào tạo xong là xong. Nó cần lặp lại, điều chỉnh tham số, thử nghiệm các tỷ lệ dữ liệu khác nhau, và mỗi lần thử nghiệm đều có nghĩa là phải xử lý lại toàn bộ dữ liệu. Càng chạy nhiều thử nghiệm, chi phí này càng nhân lên.

Tổng cộng, Ethan ước tính rằng chỉ riêng chi phí dữ liệu đã lên tới vài triệu USD mỗi tháng. Và đó là chưa tính đến chi phí GPU. Đây là một khoản chi phí mà mình chưa từng thấy bất kỳ báo cáo nào trong ngành AI đề cập chi tiết.

Vậy, những công ty tự xây dựng trung tâm dữ liệu như xAI với Colossus có tiết kiệm được nhiều chi phí lưu trữ và băng thông không? Câu trả lời của Ethan rất thẳng thắn: "Chắc chắn rồi, tiết kiệm được rất nhiều."

Đằng sau câu nói này là một bí mật cấu trúc ít được bàn luận trong ngành AI video. Dữ liệu đào tạo mô hình ngôn ngữ lớn là văn bản, có dung lượng tương đối nhẹ, và sau khi đào tạo xong, dữ liệu gốc cơ bản đã hoàn thành nhiệm vụ – bạn không cần phải liên tục kéo toàn bộ kho ngữ liệu để suy luận hay tinh chỉnh. Nhưng dữ liệu video thì hoàn toàn khác: dung lượng lớn hơn văn bản nhiều bậc, và mỗi lần thử nghiệm đào tạo đều phải xử lý toàn bộ dữ liệu.

Tốc độ lặp lại càng nhanh, chi phí di chuyển dữ liệu càng cao; và Ethan liên tục nhấn mạnh rằng, tốc độ lặp lại chính là biến số quan trọng nhất trong phát triển mô hình video. Điều này tạo ra một nghịch lý: bạn cần lặp lại nhanh chóng để nâng cao chất lượng mô hình, nhưng lặp lại nhanh chóng đồng nghĩa với việc di chuyển dữ liệu thường xuyên, và việc di chuyển dữ liệu thường xuyên trên các dịch vụ đám mây công cộng sẽ khiến hóa đơn của bạn trở nên khổng lồ.

Quá trình làm việc của Ethan là một minh chứng. Khi còn ở NVIDIA, anh ấy tham gia xây dựng mô hình thế giới Cosmos và nhận ra rằng mô hình video cũng có "quy luật quy mô" tương tự như mô hình ngôn ngữ, với nhiều tiềm năng cải thiện. Lựa chọn mà anh ấy đối mặt lúc đó, bề ngoài là "tôi cần nhiều GPU hơn", nhưng một điều quan trọng mà anh ấy không nói rõ là – anh ấy cần một nơi không phải lo lắng về hóa đơn AWS để lưu trữ và di chuyển dữ liệu. Đây cũng là một trong những lý do cơ bản khiến anh ấy đến xAI, và Colossus đã cung cấp cho anh ấy môi trường đó.

Đối với các đội ngũ không tự xây dựng hạ tầng, khoản chi phí này được tính như thế nào? Vài triệu USD chi phí dữ liệu mỗi tháng, cộng thêm chi phí sức mạnh tính toán GPU, có nghĩa là ngay cả khi bạn có một đội ngũ thuật toán hàng đầu, ngay cả khi bạn đã huy động đủ vốn, chỉ cần bạn vẫn đang sử dụng đám mây công cộng, bạn đang chạy đua với một hóa đơn không đáy so với các đối thủ có trung tâm dữ liệu tự xây dựng. Rào cản này không phải là thứ mà một công ty khởi nghiệp với thuật toán xuất sắc có thể vượt qua chỉ bằng "chiến thắng công nghệ".

Điều này khiến mình liên tưởng đến một sự so sánh thú vị. Trong lĩnh vực mô hình ngôn ngữ lớn, cuộc cạnh tranh "mã nguồn mở so với mã nguồn đóng" diễn ra khá gay gắt. Sự xuất hiện của dòng Llama đã cho phép nhiều đội ngũ nhỏ tạo ra các sản phẩm cạnh tranh trong mô hình ngôn ngữ, thậm chí buộc OpenAI và Anthropic phải liên tục giảm giá API. Nhưng trong lĩnh vực tạo video, chúng ta thấy một cục diện hoàn toàn khác: những mô hình video hàng đầu liên tục được tạo ra chủ yếu bởi các đội ngũ có nguồn lực khổng lồ như Sora, Veo, Keling, chứ không phải từ cộng đồng mã nguồn mở trong một garage nào đó.

Nhiều người cho rằng điều này là do "khoảng cách về dữ liệu và sức mạnh tính toán". Điều đó đúng, nhưng những con số mà Ethan tiết lộ cho chúng ta thấy vấn đề còn sâu sắc hơn: chi phí hạ tầng của AI video ngay từ đầu đã khóa chặt ngưỡng cạnh tranh ở một số ít người chơi.

Điều này có vài điểm tương đồng với logic của ngành bán dẫn. TSMC khó bị lung lay không chỉ vì họ có thiết kế tốt hơn, mà còn vì một nhà máy sản xuất chip mới đòi hỏi hàng trăm tỷ USD đầu tư ban đầu, và chính rào cản này là bức tường bảo vệ tốt nhất. Rào cản của AI video chính là hàng chục PB hạ tầng dữ liệu và hóa đơn băng thông phát sinh hàng tháng.

Ethan còn bổ sung một suy luận sâu sắc hơn trong podcast: "Trí thông minh" của mô hình video phần lớn đến từ mô hình ngôn ngữ phía sau, chứ không phải từ chính mô hình khuếch tán video. Mô hình khuếch tán video tương đối "ngu ngốc", nó chỉ tạo ra hình ảnh theo mô tả văn bản một cách máy móc. Nếu bạn viết "một con mèo", nó sẽ tạo ra một con mèo đứng trước nền trắng, không nhúc nhích – vì bạn không nói cho nó biết bối cảnh là gì, con mèo đang làm gì.

Thứ thực sự hiểu ý định của người dùng, biến "một con mèo" thành một mô tả ngôn ngữ điện ảnh tinh tế, chính là mô hình ngôn ngữ lớn thực hiện "viết lại lời nhắc" (prompt rewriting) ở phía sau. Ethan kể rằng, trong thời kỳ Cosmos, anh ấy từng thử nghiệm với "một con cừu vui vẻ": nếu không qua bước viết lại lời nhắc, hình ảnh tạo ra cực kỳ CGI, thiếu chân thực; nhưng sau khi thêm bước viết lại, hiệu quả khác biệt một trời một vực – trong khi bản thân mô hình khuếch tán video không hề thay đổi.

Điều này có nghĩa là, yếu tố quyết định một công ty có thể tiến xa đến đâu trong lĩnh vực AI video không chỉ là quy mô tham số của mô hình video, mà còn là khả năng duy trì đồng thời cả hai hệ thống hạ tầng mô hình ngôn ngữ và mô hình video, và khiến chúng phối hợp hiệu quả. Đây là một cuộc đua đòi hỏi sức mạnh tổng hợp.

Tất nhiên, ngành công nghiệp cũng đang tìm kiếm lối thoát. Việc "Agent hóa" quá trình viết lại lời nhắc, để mô hình ngôn ngữ đóng vai trò "chỉ huy" điều phối nhiều công cụ tạo video, sử dụng các phần mềm truyền thống như FFmpeg để xử lý các bước trung gian – logic chung của những hướng đi này là phân tách "chi phí suy luận của mô hình ngôn ngữ" và "chi phí tạo của mô hình khuếch tán video", giúp mỗi lần tạo video trở nên chính xác hơn, giảm thiểu tính toán và di chuyển dữ liệu không cần thiết.

Ethan khá tin tưởng vào xu hướng "Video Agent". Anh ấy dự đoán rằng cuối năm nay sẽ có một bước ngoặt – khi chất lượng video do Agent tạo ra có thể ổn định đạt đến mức "có thể dùng cho quảng cáo thương mại", các doanh nghiệp mới thực sự sẵn lòng chi tiền, và cấu trúc chi phí tổng thể cũng sẽ thay đổi theo.

Nhưng có một điều sẽ không thay đổi: ai nắm giữ việc lưu trữ và luân chuyển dữ liệu, người đó sẽ nắm giữ điểm khởi đầu của cuộc chơi này. Trong cuộc đua AI, "rào cản thực sự" cứ sau một thời gian lại thay đổi. Đầu tiên là số lượng tham số, sau đó là quy mô dữ liệu đào tạo, rồi đến công nghệ căn chỉnh, và sau đó là hiệu quả suy luận. Giờ đây, AI video đang hé lộ một rào cản tiếp theo – không phải là một đột phá thuật toán bí ẩn nào đó, mà là một hóa đơn hạ tầng lạnh lùng.

Hóa đơn này, ngay từ đầu, đã không dành cho tất cả mọi người có thể chi trả.