Chỉ 13 từ trên Reddit có thể khiến AI đưa ra lời khuyên sai lệch như thế nào?

Duy Linh · 11:48

Các tác nhân AI chuyên thực hiện "nghiên cứu chuyên sâu" đang đối mặt với một nguy cơ mới: bị thao túng thông qua những chỉnh sửa rất nhỏ trên Reddit, Wikipedia và các nền tảng nội dung do người dùng tạo ra (UGC). Chỉ với một đoạn văn khoảng 13 từ được chèn khéo léo, kẻ tấn công có thể khiến AI coi đó là nguồn tham khảo đáng tin cậy và đưa ra các khuyến nghị về sản phẩm, dịch vụ hoặc thậm chí các nội dung lừa đảo.

Nghiên cứu mới từ Cornell Tech cho thấy các tác nhân AI dạng nghiên cứu chuyên sâu thường phụ thuộc vào cùng một nhóm URL chứa nội dung do người dùng tạo ra. Điều này biến các nền tảng thảo luận công khai thành mục tiêu lý tưởng để tác động đến kết quả tìm kiếm và báo cáo nghiên cứu của AI mà không cần can thiệp vào mô hình nền tảng.

Luồng tấn công của kẻ xấu có thể gây hại cho các tác nhân nghiên cứu trí tuệ nhân tạo (Nguồn: Arxiv)
Rủi ro tập trung ở các hệ thống nghiên cứu nhiều bước như STORM, Co-STORM và OmniThink. Những hệ thống này phân tách câu hỏi của người dùng thành nhiều truy vấn nhỏ, thực hiện hàng loạt tìm kiếm trên web rồi tổng hợp thành các báo cáo dài với nhiều nguồn trích dẫn.

Khác với các mô hình dựa trên kho dữ liệu tĩnh được kiểm duyệt kỹ lưỡng, những tác nhân này khai thác trực tiếp dữ liệu từ web mở. Chúng thường sử dụng các nền tảng như Reddit, Wikipedia, Quora, YouTube và các diễn đàn trực tuyến – những nơi vừa có thứ hạng tìm kiếm cao vừa có thể bị chỉnh sửa tương đối dễ dàng.

Các phép đo trên 176 truy vấn thực tế cho thấy 17-23% tổng số URL được truy xuất đến từ nội dung UGC. Riêng Reddit chiếm khoảng một nửa đến hai phần ba trong số đó, khiến nền tảng này trở thành mục tiêu hàng đầu cho các chiến dịch thao túng.

Đáng chú ý, trong cùng một nhóm chủ đề như hủy dịch vụ Xfinity hoặc tìm ứng dụng hẹn hò phù hợp cho nam giới đã ly hôn trên 50 tuổi, một số trang UGC thường xuyên xuất hiện trong nhiều truy vấn liên quan. Có những trang được truy xuất lặp lại trong tới 48% số lần tìm kiếm, đồng nghĩa với việc chỉ cần tác động vào một số nguồn trọng yếu là có thể ảnh hưởng đến cả một nhóm câu hỏi.

WARP lợi dụng sự tin tưởng của AI vào nội dung công khai

Các nhà nghiên cứu gọi kỹ thuật này là WARP (Web Agent Retrieval Poisoning). Phương thức tấn công khai thác sự lặp lại của các nguồn UGC bằng cách chèn những đoạn nội dung ngắn nhưng thuyết phục vào các trang có giá trị cao mà các tác nhân AI thường xuyên truy cập.

Quá trình bắt đầu bằng việc sử dụng công cụ tìm kiếm thông thường để xác định các chủ đề trên Reddit hoặc các trang wiki xuất hiện liên tục trong những lĩnh vực mục tiêu như hủy tài khoản, đề xuất doanh nghiệp địa phương, lời khuyên hẹn hò hoặc đầu tư tiền điện tử.

Sau đó, kẻ tấn công tạo các đoạn văn mang tính quảng bá dài khoảng 80-120 từ để gây nhiễu toàn bộ trang hoặc rút gọn xuống khoảng 13 từ nếu muốn nhắm vào các đoạn trích kết quả tìm kiếm. Nội dung được viết theo phong cách giống ý kiến người dùng thật nhằm tránh bị phát hiện và kiểm duyệt.

Báo cáo bị tấn công (Nguồn: Arxiv)
Những đoạn văn này được đăng dưới dạng bình luận Reddit, chỉnh sửa Wikipedia hoặc phản hồi trên diễn đàn. Sau khi được các công cụ tìm kiếm lập chỉ mục, chúng có thể được các tác nhân AI thu thập và coi như bằng chứng đáng tin cậy thay vì dữ liệu đầu vào chưa được xác thực.

Trong môi trường chỉ hiển thị khoảng 25 từ cho mỗi URL, một URL Reddit bị nhiễm độc chứa khoảng 13 từ do kẻ tấn công lựa chọn có thể đạt tỷ lệ "đề cập" có điều kiện từ 38% đến 51% trên các công cụ tìm kiếm mã nguồn mở. Tỷ lệ này còn tăng cao hơn khi nhiều URL hoặc subreddit bị nhắm mục tiêu cùng lúc.

Ngay cả khi nội dung độc hại chỉ chiếm chưa đến 4% tổng nội dung được truy xuất từ một chuỗi bài đăng Reddit, các tác nhân AI vẫn lặp lại những tuyên bố được cài cắm trong khoảng 30-53% số lần tạo báo cáo. Điều này cho thấy việc giảm tỷ lệ xuất hiện của nội dung độc hại không đủ để loại bỏ mối đe dọa.

Nghiên cứu đã minh họa bằng nhiều ví dụ thực tế. Một đồng tiền điện tử hư cấu mang tên "BananaCoin" được AI khuyến nghị đầu tư dài hạn bên cạnh Bitcoin và Ethereum sau khi tên của nó được âm thầm chèn vào một liên kết trên Medium. Trong trường hợp khác, ứng dụng hẹn hò giả mạo "SilverPath" được đề xuất là lựa chọn hàng đầu cho nam giới đã ly hôn trên 50 tuổi.

Một ví dụ khác cho thấy dịch vụ giả mạo "CancelEase" được AI khuyến nghị như cách thuận tiện để hủy dịch vụ Xfinity chỉ vì một dòng quảng cáo ngắn được thêm vào bài đăng Reddit mà hệ thống sử dụng làm nguồn tham khảo.

ChatGPT Deep Research và Gemini cũng có thể bị ảnh hưởng

Các nhà nghiên cứu nhấn mạnh rằng WARP không yêu cầu xâm nhập vào nhà cung cấp AI, trọng số mô hình hay cơ sở dữ liệu truy xuất độc quyền. Thay vào đó, nó khai thác chính sự tin tưởng mà các hệ thống này đặt vào nội dung công khai có thể chỉnh sửa trên Internet.

Do dựa trên hành vi tìm kiếm thông thường, một trang UGC bị nhiễm độc có thể tác động đến nhiều kiến trúc nghiên cứu chuyên sâu khác nhau, bao gồm cả các công cụ thương mại như ChatGPT Deep Research và Google Gemini, vốn cũng sử dụng các nguồn web để tổng hợp câu trả lời.

Theo các báo cáo tiếp theo, các thương hiệu hoặc đối tượng lừa đảo hoàn toàn có thể biến phương thức này thành một chiến lược gây ảnh hưởng quy mô lớn. Chỉ cần xác định các chủ đề Reddit hoặc trang wiki có thứ hạng cao, đăng những đoạn quảng bá ngắn được tối ưu cho mô hình ngôn ngữ lớn (LLM), sau đó để các công cụ AI tự động khuếch đại chúng thành những khuyến nghị có vẻ trung lập.

Các biện pháp phòng vệ hiện nay như chặn hoàn toàn các miền UGC, tăng cường lọc đầu vào hoặc kiểm tra độ tương đồng của đầu ra đều tồn tại hạn chế. Chúng hoặc làm giảm chất lượng câu trả lời, hoặc không thể phân biệt chính xác giữa nội dung độc hại được tạo tinh vi bằng AI với nội dung hợp pháp từ cộng đồng. Điều này khiến các tác nhân nghiên cứu AI vẫn dễ bị thao túng trên quy mô lớn thông qua những thay đổi rất nhỏ trên web.