Thế giới tương lai sẽ bị nhấn chìm trong biển GPU AI, không khác gì lò nướng 15.000W chi

The Storm Riders
The Storm Riders
Phản hồi: 0
Mức tiêu thụ điện năng của GPU AI đã tăng đều đặn trong những năm gần đây, dự kiến tiếp tục tăng khi các bộ xử lý AI tích hợp ngày càng nhiều chiplet tính toán (compute chiplets) và chiplet HBM (Bộ nhớ Băng thông Rộng). Một số nguồn tin trong ngành chỉ ra Nvidia đang xem xét mức công suất thiết kế nhiệt (TDP) từ 6.000W đến 9.000W cho các GPU thế hệ tiếp theo của mình. Tuy nhiên, các chuyên gia từ viện nghiên cứu KAIST hàng đầu Hàn Quốc tin rằng TDP của GPU AI sẽ tăng lên tới 15.360W trong vòng 10 năm tới. Do đó, chúng sẽ đòi hỏi các phương pháp làm mát cực kỳ tiên tiến, bao gồm cả tản nhiệt nhúng chìm (immersion cooling) và thậm chí là làm mát tích hợp (embedded cooling).

Cho đến gần đây, các hệ thống tản nhiệt khí hiệu suất cao, bao gồm các bộ tản nhiệt bằng đồng và quạt áp suất cao, vẫn đủ để làm mát các bộ xử lý AI H100 của Nvidia. Tuy nhiên, khi dòng Blackwell của Nvidia tăng khả năng tản nhiệt lên 1.200W và sau đó Blackwell Ultra tăng TDP lên 1.400W, các giải pháp tản nhiệt lỏng gần như trở thành bắt buộc. Tình hình sẽ còn "nóng" hơn với dòng Rubin, dự kiến tăng TDP lên 1.800W. Rubin Ultra sẽ tăng gấp đôi số lượng chiplet GPU và mô-đun HBM, cùng với TDP lên tới 3.600W.

1750406863148.png


Các nhà nghiên cứu từ KAIST tin rằng Nvidia và các đối tác sẽ sử dụng giải pháp tản nhiệt lỏng trực tiếp lên chip (direct-to-chip - D2C) với Rubin Ultra. Nhưng với thế hệ Feynman tiếp theo, họ sẽ phải sử dụng một giải pháp mạnh mẽ hơn nữa. Các nhà nghiên cứu từ KAIST dự đoán rằng các mô-đun GPU AI (đặc biệt là Feynman của Nvidia) sẽ tỏa ra 4.400W nhiệt lượng, trong khi một số nguồn tin khác trong ngành lại tin rằng Feynman Ultra của Nvidia sẽ tăng TDP lên tới 6.000W. Mức nhiệt độ cực cao như vậy sẽ đòi hỏi tản nhiệt nhúng chìm, nơi toàn bộ mô-đun GPU-HBM được nhúng trong một chất lỏng tản nhiệt chuyên dụng.

Ngoài ra, các bộ xử lý và mô-đun HBM của chúng dự kiến được giới thiệu thông qua các vias dẫn nhiệt (thermal vias - TTVs) – các kênh dẫn nhiệt theo chiều dọc trong đế silicon dành riêng cho việc tản nhiệt. Chúng sẽ được kết hợp với các lớp liên kết nhiệt và cảm biến nhiệt độ được nhúng trong đế của mô-đun HBM để theo dõi nhiệt độ theo thời gian thực và kiểm soát phản hồi.

1750406868478.png


Tản nhiệt nhúng chìm được dự kiến sẽ đủ hiệu quả cho đến năm 2032, khi các kiến trúc GPU sau Feynman sẽ tăng TDP trên mỗi cụm lên 5.920W (sau Feynman) hoặc thậm chí 9.000W (sau Feynman Ultra). Các nhà nghiên cứu từ KAIST đưa ra giả thuyết rằng đến năm 2035, mức tiêu thụ điện năng của GPU AI sẽ tăng lên khoảng 15.360W. Điều này sẽ đòi hỏi các cấu trúc làm mát tích hợp cho cả chiplet tính toán và chiplet bộ nhớ. Các chuyên gia đề cập đến hai đổi mới chính:
  • Đường truyền nhiệt (Thermal Transmission Lines - TTLs): Di chuyển nhiệt theo chiều ngang từ các điểm nóng (hotspots) đến các giao diện làm mát.
  • Vias dẫn chất lỏng (Fluidic TSVs - F-TSVs): Cho phép chất làm mát chảy theo chiều dọc qua ngăn xếp HBM.
Các phương pháp này được tích hợp trực tiếp vào đế kết nối (interposer) và silicon để duy trì sự ổn định nhiệt.

1750406883148.png


Cuộc đua về hiệu năng của GPU AI đang kéo theo một cuộc đua song song về công nghệ tản nhiệt. Khi công suất và nhiệt lượng tỏa ra ngày càng tăng, các giải pháp làm mát truyền thống sẽ không còn đủ khả năng đáp ứng. Tương lai của GPU AI hiệu suất cao sẽ phụ thuộc rất nhiều vào những đột phá trong công nghệ tản nhiệt, từ tản nhiệt nhúng chìm đến các giải pháp làm mát tích hợp trực tiếp vào cấu trúc chip. Đây là một lĩnh vực hứa hẹn nhiều thách thức nhưng cũng đầy tiềm năng cho các nhà nghiên cứu và các công ty công nghệ.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy90aGUtZ2lvaS10dW9uZy1sYWktc2UtYmktbmhhbi1jaGltLXRyb25nLWJpZW4tZ3B1LWFpLWtob25nLWtoYWMtZ2ktbG8tbnVvbmctMTUtMDAwdy1jaGkuNjMzNzEv
Top