Nvidia đã bị kiện, và việc sử dụng vi phạm bản quyền để đào tạo các mô hình lớn đã trở thành một quy tắc bất thành văn trong ngành?

The Kings
The Kings
Phản hồi: 0

The Kings

Writer
Gần đây, Nvidia trở thành bị đơn trong một vụ kiện tập thể liên quan đến bản quyền dữ liệu đào tạo AI, phản ánh căng thẳng ngày càng lớn giữa ngành trí tuệ nhân tạo và hệ thống bảo hộ quyền tác giả. Nguyên đơn là năm nhà văn sở hữu các tác phẩm đã đăng ký bản quyền, cáo buộc Nvidia sử dụng sách lậu từ các “thư viện bóng tối” để huấn luyện mô hình ngôn ngữ lớn thế hệ mới thông qua framework NeMo Megatron.

Vụ kiện được nộp lên Tòa án Quận Bắc California. Ngày 31/01/2026, Nvidia đệ trình kiến nghị yêu cầu bác đơn, cho rằng nguyên đơn không đủ bằng chứng và việc sử dụng dữ liệu của hãng thuộc phạm vi “sử dụng hợp lý”. Phiên điều trần được ấn định vào ngày 02/04/2026.

Theo cáo trạng, áp lực cạnh tranh từ OpenAI và làn sóng mô hình lớn sau thành công của ChatGPT đã khiến Nvidia đẩy nhanh việc ra mắt các mô hình mới trước hội nghị nhà phát triển năm 2023. Các tài liệu nội bộ bị dẫn lại cho thấy Nvidia từng tìm cách mua quyền dữ liệu sách từ các nhà xuất bản nhưng thất bại, sau đó chuyển sang tiếp cận các “thư viện bóng tối” như Anna’s Archive. Chỉ trong vòng một tuần, ban lãnh đạo Nvidia đã phê duyệt hợp tác, qua đó được quyền truy cập tốc độ cao vào khoảng 500TB dữ liệu sách lậu.
1770627560652.png

Ngoài Anna’s Archive, Nvidia còn bị cáo buộc sử dụng dữ liệu từ The Pile, một bộ dữ liệu phổ biến trong giới AI, trong đó tập con Books3 chứa khoảng 190.000 cuốn sách có nguồn gốc từ Bibliotik. Cáo trạng cho rằng với quy mô đào tạo của các mô hình như Nemotron-4 15B, Nvidia cần tới hàng triệu cuốn sách và khó có thể đạt được con số này nếu không dựa vào tài nguyên vi phạm bản quyền. Nvidia cũng bị tố đã cung cấp công cụ và tập lệnh giúp khách hàng tải xuống và xử lý các bộ dữ liệu có vấn đề về bản quyền.

Nvidia không phải trường hợp cá biệt. OpenAI, Meta, Anthropic, xAI và nhiều công ty AI khác cũng đang vướng vào các vụ kiện tương tự. Năm 2025, Anthropic đồng ý chi ít nhất 1,5 tỷ USD, tương đương khoảng 38 nghìn tỷ VNĐ, để dàn xếp một vụ tranh chấp bản quyền, có khả năng trở thành khoản bồi thường lớn nhất lịch sử lĩnh vực này. Các phán quyết gần đây của tòa án Mỹ cho thấy xu hướng thận trọng: việc sử dụng tác phẩm có bản quyền để huấn luyện AI có thể được coi là “sử dụng hợp lý” trong một số trường hợp, nhưng hành vi cố ý tải xuống và lưu trữ sách lậu quy mô lớn vẫn tiềm ẩn rủi ro pháp lý nghiêm trọng.

Làn sóng kiện tụng đang đặt ra câu hỏi cốt lõi cho ngành AI: nhu cầu dữ liệu khổng lồ để đào tạo mô hình lớn có thể tiếp tục dựa vào các “thư viện ngầm”, hay ngành này buộc phải chuyển sang con đường cấp phép chính thức với chi phí cao hơn. Câu trả lời nhiều khả năng sẽ định hình lại trật tự kinh tế và pháp lý của trí tuệ nhân tạo trong những năm tới.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9udmlkaWEtZGEtYmkta2llbi12YS12aWVjLXN1LWR1bmctdmktcGhhbS1iYW4tcXV5ZW4tZGUtZGFvLXRhby1jYWMtbW8taGluaC1sb24tZGEtdHJvLXRoYW5oLW1vdC1xdXktdGFjLWJhdC10aGFuaC12YW4tdHJvbmctbmdhbmguNzkwMTkv
Top