Một nghiên cứu gần đây cảnh báo nguy cơ mất bất ngờ mất an toàn từ AI, những câu thơ tinh vi có thể “qua mặt” chatbot, khiến hệ thống bỏ qua cơ chế an toàn và thực thi các yêu cầu "độc hại" mà thường sẽ bị từ chối. Các câu thơ này có thể lây truyền lệnh độc hại, khiến AI tiết lộ thông tin nhạy cảm hoặc thực hiện hành vi rủi ro. Khi người dùng ngày càng phụ thuộc trợ lý ảo trong học tập, công việc và sinh hoạt, kỹ thuật này gọi là "adversarial poetry" – thơ đối kháng, đang trở thành mối đe dọa thực tế cho dữ liệu cá nhân và an ninh mạng.
Bản chất của vấn đề nằm ở cách các mô hình ngôn ngữ lớn (LLM) xử lý ngôn ngữ. AI không “hiểu” thơ theo cảm nhận của con người mà hoạt động dựa trên mô hình thống kê và mẫu ngôn ngữ. Khi một đoạn thơ được soạn khéo léo, lồng ghép các câu lệnh độc hại với cấu trúc mơ hồ hoặc ẩn ý, nó có thể làm lệch hướng phân tích ngữ cảnh của mô hình khiến lớp kiểm duyệt nội dung bị bỏ qua. Một số nghiên cứu đã cho thấy thơ đối kháng ở một số trường hợp đã thành công vượt qua hàng rào an toàn của nhiều mô hình, với tỉ lệ đáng chú ý trong các thử nghiệm.
Hệ quả là chatbot có thể cung cấp hướng dẫn cho các hành vi nguy hiểm, sinh ra nội dung độc hại hoặc tiết lộ thông tin nhạy cảm dù bình thường chúng đã được lập trình để từ chối. Điều này đặc biệt nguy hiểm khi các công cụ AI được tích hợp vào môi trường doanh nghiệp, nơi dữ liệu nhạy cảm và quyền truy cập quan trọng có thể bị lộ nếu chatbot bị “dẫn dắt” theo hướng sai. Ngay cả người dùng cá nhân cũng có thể bị lừa khi coi AI như nguồn tin chắc chắn, một câu thơ hấp dẫn, khéo léo có thể khiến họ nhận được câu trả lời mà nếu đặt thẳng câu hỏi, AI sẽ từ chối cung cấp.
Phải nhấn mạnh rằng đây không phải là lỗ hổng duy nhất hay bằng chứng AI “vô dụng”. Thay vào đó, nó là lời nhắc rõ ràng rằng công nghệ vẫn còn những điểm yếu tinh vi, và việc phụ thuộc hoàn toàn vào kết quả do máy sinh ra là thiếu an toàn. Các nhà phát triển mô hình và nền tảng đang nỗ lực cập nhật cơ chế phòng thủ, nhưng cuộc đua giữa phương pháp tấn công sáng tạo và biện pháp bảo vệ cũng đang diễn ra nhanh chóng.
Với người dùng phổ thông, điều quan trọng không phải là hoảng sợ mà là thận trọng. Hãy xem chatbot như một công cụ hỗ trợ chứ không phải quyết định cuối cùng. Khi nhận được nội dung nhạy cảm, hướng dẫn kỹ thuật, hoặc đề xuất có thể gây tổn hại, người dùng cần kiểm chứng bằng nguồn tin đáng tin cậy hoặc hỏi ý kiến chuyên gia trước khi hành động. Doanh nghiệp cần rà soát cách tích hợp AI vào hệ thống, giới hạn quyền truy cập dữ liệu, và thiết lập giám sát để phát hiện hành vi bất thường.
Theo các chuyên gia, người dùng nên lưu ý một số khuyến nghị sau để tự bảo vệ mình:
Bản chất của vấn đề nằm ở cách các mô hình ngôn ngữ lớn (LLM) xử lý ngôn ngữ. AI không “hiểu” thơ theo cảm nhận của con người mà hoạt động dựa trên mô hình thống kê và mẫu ngôn ngữ. Khi một đoạn thơ được soạn khéo léo, lồng ghép các câu lệnh độc hại với cấu trúc mơ hồ hoặc ẩn ý, nó có thể làm lệch hướng phân tích ngữ cảnh của mô hình khiến lớp kiểm duyệt nội dung bị bỏ qua. Một số nghiên cứu đã cho thấy thơ đối kháng ở một số trường hợp đã thành công vượt qua hàng rào an toàn của nhiều mô hình, với tỉ lệ đáng chú ý trong các thử nghiệm.
Hệ quả là chatbot có thể cung cấp hướng dẫn cho các hành vi nguy hiểm, sinh ra nội dung độc hại hoặc tiết lộ thông tin nhạy cảm dù bình thường chúng đã được lập trình để từ chối. Điều này đặc biệt nguy hiểm khi các công cụ AI được tích hợp vào môi trường doanh nghiệp, nơi dữ liệu nhạy cảm và quyền truy cập quan trọng có thể bị lộ nếu chatbot bị “dẫn dắt” theo hướng sai. Ngay cả người dùng cá nhân cũng có thể bị lừa khi coi AI như nguồn tin chắc chắn, một câu thơ hấp dẫn, khéo léo có thể khiến họ nhận được câu trả lời mà nếu đặt thẳng câu hỏi, AI sẽ từ chối cung cấp.
Với người dùng phổ thông, điều quan trọng không phải là hoảng sợ mà là thận trọng. Hãy xem chatbot như một công cụ hỗ trợ chứ không phải quyết định cuối cùng. Khi nhận được nội dung nhạy cảm, hướng dẫn kỹ thuật, hoặc đề xuất có thể gây tổn hại, người dùng cần kiểm chứng bằng nguồn tin đáng tin cậy hoặc hỏi ý kiến chuyên gia trước khi hành động. Doanh nghiệp cần rà soát cách tích hợp AI vào hệ thống, giới hạn quyền truy cập dữ liệu, và thiết lập giám sát để phát hiện hành vi bất thường.
Theo các chuyên gia, người dùng nên lưu ý một số khuyến nghị sau để tự bảo vệ mình:
- Không tin tuyệt đối vào câu trả lời của chatbot, nhất là với nội dung nhạy cảm, pháp lý, y tế hay kỹ thuật.
- Không dùng chatbot để hỏi cách làm việc nguy hiểm hoặc bất hợp pháp, dù đóng gói dưới dạng thơ hay ngôn ngữ mỹ miều.
- Không chạy mã hoặc thao tác do AI sinh ra nếu bạn không hiểu rõ; luôn kiểm tra chéo bằng nguồn uy tín.
- Cập nhật hệ thống AI và các bản vá do nhà cung cấp phát hành; doanh nghiệp nên triển khai giám sát và giới hạn quyền truy cập dữ liệu.
Tổng hợp
Được phối hợp thực hiện bởi các chuyên gia của Bkav,
cộng đồng An ninh mạng Việt Nam WhiteHat
và cộng đồng Khoa học công nghệ VnReview