Cơn khát điện AI đang ngốn lượng tài nguyên khổng lồ của Trái Đất

From Beijing with Love
From Beijing with Love
Phản hồi: 0

From Beijing with Love

Cháu đã lớn thế này rồi à. Lại đây chú ôm cái coi.
Nhu cầu điện năng ngày càng tăng của ngành công nghiệp AI đang gióng lên hồi chuông báo động. Một số cụm máy tính khổng lồ được sử dụng để huấn luyện mô hình AI tiêu thụ một lượng điện năng tương đương với cả một thành phố. Và tình hình sẽ chỉ trở nên tồi tệ hơn khi các mô hình AI ngày càng lớn hơn và việc sử dụng AI ngày càng tăng.

Để giải quyết bài toán đau đầu này, các nhà cung cấp dịch vụ đám mây lớn (CSP) đang ráo riết tìm kiếm những giải pháp thay thế hiệu quả hơn. Và Cloudflare, một trong những "ông lớn" trong ngành, đang đi tiên phong. Theo tờ Wall Street Journal, họ đang thử nghiệm các máy gia tốc AI khác nhau, những sản phẩm không phải là GPU AI của AMD hay Nvidia.

Và "vũ khí" mới nhất mà họ đang thử nghiệm chính là giải pháp Atlas của Positron AI.

1753862491643.png


Positron là một công ty có trụ sở tại Mỹ, được thành lập vào năm 2023, chuyên phát triển các máy gia tốc AI tập trung hoàn toàn vào suy luận (inference). Không giống như các GPU đa dụng được thiết kế cho cả huấn luyện và suy luận, phần cứng của Positron được xây dựng từ đầu để thực hiện các tác vụ suy luận một cách hiệu quả và với mức tiêu thụ điện năng tối thiểu.

Và những gì họ tuyên bố thực sự gây chấn động. Giải pháp thế hệ đầu tiên của họ, Atlas, được cho là có thể mang lại khoảng 280 token mỗi giây mỗi người dùng trong mô hình Llama 3.1 8B, trong khi chỉ tiêu thụ 2000W. Để so sánh, một máy chủ 8-way Nvidia DGX H200 chỉ có thể đạt được khoảng 180 token mỗi giây trong cùng một kịch bản, trong khi tiêu thụ tới 5900W điện năng.

Điều này sẽ làm cho Atlas hiệu quả hơn gấp ba lần cả về hiệu suất trên mỗi watt và hiệu suất trên mỗi đô la so- với hệ thống DGX H200 của Nvidia. Tất nhiên, tuyên bố này cần được xác minh bởi một bên thứ ba. Một điểm cực kỳ đáng chú ý là phần cứng ASIC của Positron AI được sản xuất tại nhà máy Fab 21 của TSMC ở Arizona (sử dụng tiến trình N4 hoặc N5), và các card cũng được lắp ráp tại Mỹ, biến chúng thành một sản phẩm gần như hoàn toàn của Mỹ.

1753862498155.png


1753862507351.png


Và Positron không chỉ dừng lại ở đó. Họ cũng đang làm việc trên máy gia tốc suy luận AI thế hệ thứ hai của mình, có tên mã là Asimov, dự kiến sẽ ra mắt vào năm 2026 để cạnh tranh với các hệ thống dựa trên nền tảng Vera Rubin của Nvidia. Máy gia tốc Asimov sẽ được trang bị tới 2 TB bộ nhớ cho mỗi ASIC. Một hệ thống Titan – dựa trên tám máy gia tốc Asimov – được kỳ vọng sẽ có thể chạy các mô hình có tới 16 nghìn tỷ tham số trên một máy duy nhất. Nó cũng hỗ trợ thực thi đồng thời nhiều mô hình, loại bỏ ràng buộc một-mô-hình-trên-một-GPU.

Cuộc đua tìm kiếm các giải pháp suy luận hiệu quả không chỉ có sự tham gia của các công ty khởi nghiệp. Các "gã khổng lồ" như Google, Meta và Microsoft cũng đang tự phát triển các máy gia tốc suy luận của riêng mình để kiểm soát mức tiêu thụ điện năng.
 


Đăng nhập một lần thảo luận tẹt ga
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9jb24ta2hhdC1kaWVuLWFpLWRhbmctbmdvbi1sdW9uZy10YWktbmd1eWVuLWtob25nLWxvLWN1YS10cmFpLWRhdC42NjMxMy8=
Top