Trong tương lai, khi AI trở thành chuẩn mực, dữ liệu sẽ là vũ khí lớn nhất

myle.vnreview · 22:32 Hôm qua

Các cuộc chiến tranh trong tương lai sẽ là về dữ liệu. Kỷ nguyên của dầu mỏ và thậm chí là đất hiếm sắp kết thúc. AI sẽ sớm trở thành nền tảng của mọi thứ. Vì các quốc gia cần thực phẩm thực sự để nuôi sống binh lính của mình, AI cần khối lượng lớn "thực phẩm" kỹ thuật số là dữ liệu để hoạt động. Càng có nhiều dữ liệu, các mô hình AI càng chính xác. Ngay cả các ứng dụng AI tương đối đơn giản, chẳng hạn như nhận dạng hình ảnh và xử lý ngôn ngữ tự nhiên, cũng dựa vào lượng dữ liệu lớn.

Dữ liệu rất cần thiết cho các hệ thống AI, vì nó cung cấp thông tin cần thiết để đào tạo các mô hình và đưa ra dự đoán chính xác. Khi một cỗ máy tư duy được xây dựng, nó cần dữ liệu để tự giáo dục và phát triển trí thông minh. Cả số lượng và chất lượng dữ liệu đều quan trọng như nhau. Tương tự như việc ăn nhầm thức ăn có thể dẫn đến chứng khó tiêu và thậm chí là ngộ độc, dữ liệu sai có thể dẫn đến các dự đoán sai và thậm chí là các quyết định gây tử vong từ các hệ thống tự động. Số lượng và chất lượng dữ liệu ảnh hưởng trực tiếp đến hiệu suất và độ chính xác của bất kỳ hệ thống AI nào.

Dữ liệu đến từ hồ sơ công khai, khảo sát có sự đồng ý của người dùng, thu thập dữ liệu web và thu thập dữ liệu độc quyền (dữ liệu do các tổ chức thu thập bằng phương pháp riêng của họ). Mọi thứ đều có thể trở thành dữ liệu cho AI, ngay cả dữ liệu bí mật của chúng ta như email và cuộc trò chuyện qua điện thoại, lịch sử mua hàng và thói quen hàng ngày. Dữ liệu có thể được thu thập theo cả cách hợp pháp hoặc bất hợp pháp, và cũng có thể được sử dụng theo bất kỳ cách nào tùy thuộc vào chủ sở hữu.

Dữ liệu cũng có thể được sử dụng làm vũ khí. Một quốc gia như Trung Quốc, nơi phát triển AI của riêng mình và có khối lượng dữ liệu khổng lồ từ hệ thống giám sát toàn diện của mình, không mấy quan tâm đến việc làm hỏng các nỗ lực AI của phương Tây vì họ muốn truy cập dữ liệu đó cho mục đích riêng của mình. Nhưng các quốc gia bất hảo khác như Nga hoặc Bắc Triều Tiên không thể cạnh tranh trong cuộc đua AI và do đó muốn làm chệch hướng phát triển AI của Mỹ, Nhật Bản và các quốc gia thành viên EU.

Việc làm chệch hướng như vậy có thể đạt được bằng các biện pháp hoạt động đặc biệt để làm hỏng hoặc lây nhiễm các tập dữ liệu bằng các lỗi hoặc vi-rút mà các nhà phát triển phương Tây sử dụng để đào tạo và phát triển AI. Vì lý do này, các công ty nên hết sức thận trọng khi cân nhắc mua quyền truy cập vào các tập dữ liệu do tư nhân sở hữu.

Hãy tưởng tượng nếu bạn đưa vào các thuật toán tốt nhất cách diễn giải sai lệch về các tác phẩm của những người như Mussolini và Hitler hay trong trường hợp của Nga, những người như Alexandr Dugin hay Vladimir Putin? Máy móc sẽ sớm bị thuyết phục rằng một bộ phận đáng kể của nhân loại, nếu không phải là toàn bộ loài người, nên bị tiêu diệt? Bao lâu nữa thì nó sẽ nôn ra những cách đối xử thông cảm với các chế độ phát xít? Nếu AI được đào tạo kém như vậy nắm quyền điều khiển một hệ thống vũ khí thì sao? Hãy tưởng tượng nếu dữ liệu cốt lõi đằng sau Google Maps hoặc các hệ thống định vị tương tự bị đánh cắp để khiến xe tự lái đưa hành khách đến cái chết?

Những thí nghiệm tư duy này có vẻ như là cường điệu, nhưng AI không biết đến sự đồng cảm hay tư duy phản biện; nó chỉ là một thuật toán hoàn toàn dựa trên dữ liệu đầu vào mà nó có.

Trung tâm dữ liệu Google ở Southland nhìn từ trên không, tại Council Bluffs, Iowa, vào tháng 1 năm 2019.

Khi sự tham gia của AI vào nền kinh tế ngày càng tăng, sẽ cần nhiều dữ liệu hơn. Thật dễ dàng để dự đoán cuộc chiến giữa những người chơi chính để giành quyền truy cập vào dữ liệu mở và các quy tắc nghiêm ngặt do chính phủ áp đặt đối với việc sử dụng dữ liệu công khai. Sẽ có chủ quyền dữ liệu được thực thi. Do đó, một trong những thách thức lớn nhất trong việc khai thác sức mạnh của AI nằm ở quá trình dọn dẹp và chuẩn bị dữ liệu cho các thuật toán của nó.

Làm sạch dữ liệu, theo cách gọi thông thường, bao gồm việc loại bỏ, sửa chữa và chuẩn hóa các lỗi, sự không nhất quán và không chính xác trong một tập dữ liệu. Nhưng một số tập dữ liệu độc quyền có thể được các tổ chức tội phạm cố tình chuẩn bị để lây nhiễm vào các ngân hàng dữ liệu lớn hơn và ảnh hưởng đến các dự đoán và hành động của AI. Không thể làm sạch mọi lỗi.

Công ước khung về Trí tuệ nhân tạo và Nhân quyền, Dân chủ và Pháp quyền, được Hội đồng Châu Âu thông qua tại Vilnius vào ngày 5 tháng 9 năm 2024, là bước tiến lớn đầu tiên hướng tới việc điều chỉnh AI, dữ liệu và các vấn đề liên quan khác. Đây là một tài liệu mở để mọi bên tham gia. Trong khi Mỹ, Nhật Bản, Canada nằm trong số những bên ký kết, thì không có Trung Quốc, Nga, Triều Tiên hay Iran. Không có nhiều nghi ngờ rằng các quốc gia theo chủ nghĩa xét lại đang nỗ lực hết sức để làm chậm cuộc cách mạng công nghệ lần thứ tư không thể tránh khỏi.

Các xã hội dân chủ phải hiểu rằng AI và nền kinh tế dữ liệu lớn không thể chỉ được coi là doanh nghiệp tư nhân. OpenAI có kế hoạch giúp phát triển một trung tâm dữ liệu mới khổng lồ tại Các Tiểu vương quốc Ả Rập Thống nhất, sau này có thể trở thành một trong những trung tâm dữ liệu lớn nhất thế giới. Theo báo cáo của Bloomberg, nhà sản xuất ChatGPT dự kiến sẽ là một trong những đơn vị thuê chính cho khuôn viên trung tâm dữ liệu 5 gigawatt tại Abu Dhabi.

Câu hỏi đặt ra là kho lưu trữ khổng lồ này sẽ lưu trữ dữ liệu gì và độ tin cậy của nó như thế nào? Ai có thể kiểm tra xem thuật toán có ảo tưởng rằng "Chiến tranh và hòa bình" được Fyodor Dostoevsky viết thay vì tác giả thực sự của nó, Leo Tolstoy không? Các nhà phát triển công nghệ mới càng sớm chú ý đến tính an toàn và độ tin cậy của dữ liệu thì càng tốt.

Nguồn: Nikkei