A-Train The Seven
...'cause for once, I didn't hate myself.
Dù Mỹ đã nỗ lực hết mình để ngăn chặn, 1 lượng lớn các GPU trung tâm dữ liệu bị hạn chế của Nvidia vẫn đang hoạt động tại Trung Quốc. Nhưng vì chúng được nhập lậu với số lượng tương đối hạn chế, chủ sở hữu của những bộ xử lý A100 hay H100 bị lỗi này không có một lựa chọn nào khác ngoài việc sửa chữa chúng, vì hiển nhiên là chúng không được bảo hành.
Chính từ nhu cầu "sống còn" này, một ngành công nghiệp ngầm đang bùng nổ, tập trung vào việc bảo trì các GPU AI cao cấp của Nvidia, những sản phẩm bị cấm xuất khẩu chính thức sang Trung Quốc.
Theo Reuters, khoảng một chục công ty nhỏ ở Thâm Quyến hiện đang cung cấp dịch vụ sửa chữa cho các GPU Nvidia tiên tiến. Hai công ty đã xác nhận rằng họ chủ yếu xử lý các đơn vị A100 và H100, những con chip có thể được sử dụng để xây dựng các siêu máy tính mạnh mẽ cho cả AI và HPC (tính toán hiệu năng cao).
Một trong số các công ty này đã bắt đầu cung cấp dịch vụ vào cuối năm 2024 và hiện đang xử lý tới 500 ca sửa chữa GPU mỗi tháng. Những doanh nghiệp này thậm chí còn thiết lập các cơ sở với các phòng máy chủ để mô phỏng điều kiện trung tâm dữ liệu thực tế cho việc kiểm tra. Lợi nhuận từ công việc sửa chữa "chợ xám" này đã thúc đẩy các doanh nghiệp thành lập các nhánh riêng chỉ để xử lý GPU AI.
Các máy gia tốc AI – cả dạng card cắm và mô-đun SXM – là những thiết bị phức tạp, phải chịu đựng những áp lực cực lớn về nhiệt, điện và cơ học trong môi trường trung tâm dữ liệu. Các sự cố có thể xảy ra bao gồm:
Và chi phí để "hồi sinh" những con "quái vật" này cũng không hề rẻ. Một công ty tính phí từ 1.400 đến 2.800 USD cho mỗi GPU, tùy thuộc vào độ phức tạp của việc sửa chữa. Một nhà cung cấp dịch vụ khác, trước đây tập trung vào việc cho thuê GPU, hiện đang sửa chữa khoảng 200 sản phẩm Nvidia mỗi tháng, với giá dịch vụ vào khoảng 10% giá trị bán lẻ của chúng.
Mỹ đã cấm bán các GPU cấp siêu máy tính A100 và H100 cho Trung Quốc vào năm 2022, và sau đó tiếp tục siết chặt các quy định vào năm 2023. Chính điều này đã tạo ra một thị trường chợ đen, nơi các cá nhân và tổ chức bắt đầu buôn lậu các GPU Nvidia hiệu suất cao vào Trung Quốc. Hầu hết các GPU AI này đã hoạt động dưới tải trọng cao 24/7 trong vài năm nay, vì vậy tỷ lệ hỏng hóc của chúng đang tăng lên, biến việc sửa chữa chúng trở thành một ngành kinh doanh cực kỳ béo bở.
Chính từ nhu cầu "sống còn" này, một ngành công nghiệp ngầm đang bùng nổ, tập trung vào việc bảo trì các GPU AI cao cấp của Nvidia, những sản phẩm bị cấm xuất khẩu chính thức sang Trung Quốc.
Theo Reuters, khoảng một chục công ty nhỏ ở Thâm Quyến hiện đang cung cấp dịch vụ sửa chữa cho các GPU Nvidia tiên tiến. Hai công ty đã xác nhận rằng họ chủ yếu xử lý các đơn vị A100 và H100, những con chip có thể được sử dụng để xây dựng các siêu máy tính mạnh mẽ cho cả AI và HPC (tính toán hiệu năng cao).

Một trong số các công ty này đã bắt đầu cung cấp dịch vụ vào cuối năm 2024 và hiện đang xử lý tới 500 ca sửa chữa GPU mỗi tháng. Những doanh nghiệp này thậm chí còn thiết lập các cơ sở với các phòng máy chủ để mô phỏng điều kiện trung tâm dữ liệu thực tế cho việc kiểm tra. Lợi nhuận từ công việc sửa chữa "chợ xám" này đã thúc đẩy các doanh nghiệp thành lập các nhánh riêng chỉ để xử lý GPU AI.
Các máy gia tốc AI – cả dạng card cắm và mô-đun SXM – là những thiết bị phức tạp, phải chịu đựng những áp lực cực lớn về nhiệt, điện và cơ học trong môi trường trung tâm dữ liệu. Các sự cố có thể xảy ra bao gồm:
- Hỏng hóc do hao mòn như keo tản nhiệt bị khô, quạt bị lỗi.
- Mỏi linh kiện trên PCB, chân kết nối bị hỏng hoặc oxy hóa.
- Các vấn đề phức tạp hơn như lỗi hệ thống cấp điện, nứt mối hàn dưới các gói GPU hoặc HBM khổng lồ, hoặc thậm chí là sự suy giảm của bộ nhớ HBM.

Và chi phí để "hồi sinh" những con "quái vật" này cũng không hề rẻ. Một công ty tính phí từ 1.400 đến 2.800 USD cho mỗi GPU, tùy thuộc vào độ phức tạp của việc sửa chữa. Một nhà cung cấp dịch vụ khác, trước đây tập trung vào việc cho thuê GPU, hiện đang sửa chữa khoảng 200 sản phẩm Nvidia mỗi tháng, với giá dịch vụ vào khoảng 10% giá trị bán lẻ của chúng.
Mỹ đã cấm bán các GPU cấp siêu máy tính A100 và H100 cho Trung Quốc vào năm 2022, và sau đó tiếp tục siết chặt các quy định vào năm 2023. Chính điều này đã tạo ra một thị trường chợ đen, nơi các cá nhân và tổ chức bắt đầu buôn lậu các GPU Nvidia hiệu suất cao vào Trung Quốc. Hầu hết các GPU AI này đã hoạt động dưới tải trọng cao 24/7 trong vài năm nay, vì vậy tỷ lệ hỏng hóc của chúng đang tăng lên, biến việc sửa chữa chúng trở thành một ngành kinh doanh cực kỳ béo bở.