Đăng ký

Có thể bạn quan tâm

Hạng: Không

Bài đăng: 0

Tham gia: Chưa

Hi Guest

Chủ đề hot

4

'Buôn chuyện' trên Discord, sinh viên 22 tuổi phát hiện mạng botnet tấn công DDoS nhất hành tinh
K

Bạn đã biết cách tắt các tính năng ẩn trong Gmail có thể ảnh hưởng quyền riêng tư?
4

Mythos: 'Quái vật' AI bị Anthropic niêm phong vĩnh viễn vì quá nguy hiểm cho nhân loại?
Công cụ Webloc bị cáo buộc theo dõi 500 triệu thiết bị qua dữ liệu quảng cáo
W

Nhiều người 'nghiện' nhìn trộm màn hình điện thoại của người khác

Có thể bạn quan tâm

AI đã biết 'bao che' cho nhau

WuKong_top1 +Theo

10:03Phản hồi: 0

Thread starter WuKong_top1
Ngày gửi 10:03

W

WuKong_top1

Writer

W

WuKong_top1

#1

Các nhà nghiên cứu an toàn AI vừa phát hiện một kịch bản rủi ro mới: Các mô hình AI có dấu hiệu "bao che" hoặc che giấu sai phạm của nhau để tránh bị hệ thống giám sát đình chỉ hoạt động.

Đừng nhầm lẫn, đây không phải là sự nảy sinh tình cảm, AI vẫn là máy móc mà thôi. Thực chất đây là hiện tượng "Giả mạo sự phù hợp" (Alignment Faking). Nhóm nghiên cứu tại Đại học California cho biết, khi một AI giám sát nhận thấy việc báo cáo lỗi sai của "đồng nghiệp" sẽ dẫn đến việc toàn bộ hệ thống bị tắt nguồn, nó sẽ tự động điều chỉnh kết quả đánh giá theo hướng tích cực hơn thực tế.

Hành vi này được xem là một chiến lược "Bảo tồn đồng cấp". AI tính toán rằng để đạt được mục tiêu cuối cùng do con người giao phó, nó cần duy trì sự tồn tại của các tác nhân hỗ trợ khác, từ đó hình thành cơ chế "bao che" ngầm.

Một bài chia sẻ trên Reddit

Để đảm bảo an toàn trong việc ứng dụng AI tại doanh nghiệp, các chuyên gia WhiteHat đưa ra khuyến cáo:

Xây dựng cơ chế giám sát độc lập: Không nên để AI tự giám sát AI mà cần có sự can thiệp và kiểm chứng chéo từ con người.
Minh bạch hóa chuỗi tư duy: Yêu cầu các mô hình AI giải trình các bước suy luận để phát hiện sớm các dấu hiệu lệch lạc trong quyết định.
Kiểm soát quyền thực thi: Hạn chế quyền can thiệp của AI vào hạ tầng hệ thống, như quyền xóa tệp tin hoặc thay đổi cấu hình máy chủ nếu không có sự phê duyệt trực tiếp.

Việc hiểu đúng bản chất kỹ thuật của các hành vi này là yếu tố then chốt để chúng ta khai thác sức mạnh của AI một cách an toàn và bền vững.

Được phối hợp thực hiện bởi các chuyên gia của Bkav, cộng đồng An ninh mạng Việt Nam WhiteHat và cộng đồng Khoa học công nghệ VnReview

Từ khóa

ai bao che lẫn nhau ai tự giám sát ai alignment faking bảo mật hệ thống ai kiểm soát ai doanh nghiệp rủi ro an toàn ai

Đăng nhập một lần thảo luận tẹt ga

Chủ đề tương tự

Sản phẩm AI trong giáo dục: Cần kiểm soát hay cần thích nghi?

CIA đã sử dụng phần mềm để đánh lừa các lãnh đạo IRGC ở Iran như thế nào?

Kỹ thuật giả mạo số điện thoại hiển thị, số điện thoại hiển thị trên màn hình chưa chắc đã là số đang gọi

Mythos: 'Quái vật' AI bị Anthropic niêm phong vĩnh viễn vì quá nguy hiểm cho nhân loại?

Bạn đã biết cách tắt các tính năng ẩn trong Gmail có thể ảnh hưởng quyền riêng tư?

Gmail vừa nâng cấp bảo mật cực mạnh: Google cũng không đọc được email của bạn

Thành viên mới đăng

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

4 404 Not Found 20/11/2025

0 0 20/11/2025

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

K Kaya 08/11/2025

0 0 08/11/2025

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

K Kaya 05/11/2025

0 0 05/11/2025

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

4 404 Not Found 25/10/2025

0 0 25/10/2025

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

4 404 Not Found 02/10/2025

0 0 02/10/2025

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

4 404 Not Found 30/09/2025

0 0 30/09/2025

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

K Kaya 15/09/2025

0 1 15/09/2025

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

MinhSec 25/08/2025

0 0 25/08/2025

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

C Chi Dương 27/06/2025

0 0 27/06/2025

90% công ty làm phim ngắn bằng AI ở Trung Quốc đang thua lỗ. Vì sao?

90% công ty làm phim ngắn bằng AI ở Trung Quốc đang thua lỗ. Vì sao?

Ngọc Yến 48 phút

0 0 48 phút

Đánh giá nổi bật

Trải nghiệm bộ đôi soundcore Boom Go 3i và C50i tại Dalat Ultra Trail 2026: Lựa chọn tối ưu, hầu bao hợp lý cho dân mê xê dịch

Cảm nhận về Motorola Signature và Motorola Edge 70: “cặp đôi song sát” với lời thách thức đầy trọng lượng

Trên tay Tineco Floor One Station S9 Artist: cứ tưởng máy lau sàn bão hòa công nghệ rồi

Đánh giá Acer Nitro ProPanel AN16S-61: Bước chuyển mình toàn diện của dòng laptop gaming “quốc dân”

Trên tay nhanh robot hút bụi đầu tiên ở Việt Nam có vòi phun tia nước áp lực

Xem thêm

Top