Quang Trương
Pearl
Bạn có bao giờ tự hỏi dữ liệu cá nhân của mình có thể đã vô tình nằm trong bộ nhớ của một mô hình AI nào đó không?
Trước đây, các kỹ thuật kiểm tra rò rỉ dữ liệu như MIA (Membership Inference Attack) thường kém hiệu quả với AI tạo sinh hiện đại, vì chúng vốn được thiết kế cho những mô hình đơn giản. CAMIA lại khác, nó tận dụng cách AI dự đoán từ ngữ theo ngữ cảnh để tìm ra khi nào mô hình chỉ “đoán” và khi nào nó thật sự đang “nhớ lại” dữ liệu huấn luyện.
Thực tế, nỗi lo này không còn xa vời, nhất là khi có những công ty lớn công khai ý định tận dụng dữ liệu người dùng để cải thiện mô hình AI.
Trong thử nghiệm, CAMIA đã cho kết quả vượt trội. Với mô hình Pythia 2,8 tỷ tham số, độ chính xác phát hiện gần như tăng gấp đôi so với các phương pháp cũ, tỷ lệ báo động nhầm gần như bằng không. Thậm chí, trên GPU A100, nó có thể xử lý 1.000 mẫu chỉ trong chưa đầy 40 phút, chứng tỏ tính thực tiễn cao.
Vậy câu hỏi đặt ra là, khi AI ngày càng thông minh, chúng ta có sẵn sàng để bảo vệ dữ liệu của mình không?
Nguồn: Artificialintelligence

Khi AI “nhớ” quá nhiều
Một nhóm nghiên cứu từ Brave và Đại học Quốc gia Singapore vừa giới thiệu một cách tấn công mới mang tên CAMIA (Context-Aware Membership Inference Attack). Điểm đặc biệt của CAMIA là nó có thể phát hiện liệu dữ liệu của bạn có được đưa vào quá trình huấn luyện AI hay không, đồng thời chỉ ra những chỗ AI thực sự “ghi nhớ” thông tin nhạy cảm.Trước đây, các kỹ thuật kiểm tra rò rỉ dữ liệu như MIA (Membership Inference Attack) thường kém hiệu quả với AI tạo sinh hiện đại, vì chúng vốn được thiết kế cho những mô hình đơn giản. CAMIA lại khác, nó tận dụng cách AI dự đoán từ ngữ theo ngữ cảnh để tìm ra khi nào mô hình chỉ “đoán” và khi nào nó thật sự đang “nhớ lại” dữ liệu huấn luyện.
Tại sao điều này đáng lo?
Hãy tưởng tượng một hệ thống AI được huấn luyện bằng ghi chú lâm sàng, nó có thể vô tình tiết lộ thông tin bệnh nhân. Hoặc nếu email nội bộ của một công ty được dùng để huấn luyện, kẻ xấu có thể “dụ” mô hình tái tạo lại thư từ riêng tư.Thực tế, nỗi lo này không còn xa vời, nhất là khi có những công ty lớn công khai ý định tận dụng dữ liệu người dùng để cải thiện mô hình AI.
Trong thử nghiệm, CAMIA đã cho kết quả vượt trội. Với mô hình Pythia 2,8 tỷ tham số, độ chính xác phát hiện gần như tăng gấp đôi so với các phương pháp cũ, tỷ lệ báo động nhầm gần như bằng không. Thậm chí, trên GPU A100, nó có thể xử lý 1.000 mẫu chỉ trong chưa đầy 40 phút, chứng tỏ tính thực tiễn cao.
Thông điệp gửi tới ngành AI
Điều này nhắc nhở rằng càng huấn luyện AI trên những tập dữ liệu khổng lồ, chưa được lọc, nguy cơ rò rỉ thông tin cá nhân càng lớn. Công cụ như CAMIA không chỉ cảnh báo ngành công nghiệp mà còn thúc đẩy việc tìm ra giải pháp bảo vệ quyền riêng tư tốt hơn.Vậy câu hỏi đặt ra là, khi AI ngày càng thông minh, chúng ta có sẵn sàng để bảo vệ dữ liệu của mình không?
Nguồn: Artificialintelligence