Rò rỉ thông tin Anthropic phát triển một mô hình giỏi hack đến mức do dự phát hành

Vũ Nguyễn
Vũ Nguyễn
Phản hồi: 0
Một vụ rò rỉ dữ liệu vừa tiết lộ rằng Anthropic đang thử nghiệm một mô hình mới có tên “Claude Mythos”, được họ mô tả là “mô hình AI mạnh nhất mà chúng tôi từng phát triển”.

Sự cố xảy ra khi các bài blog nháp và tài liệu nội bộ bị lưu trong một bộ nhớ đệm dữ liệu có thể truy cập công khai.
1774602731126.png

Tạp chí Fortune cùng các nhà nghiên cứu an ninh mạng đã phát hiện gần 3.000 tài liệu chưa công bố trước khi Anthropic kịp khóa quyền truy cập.

Mô hình mới này giới thiệu một cấp độ hoàn toàn mới mang tên “Capybara”, có quy mô lớn hơn và năng lực vượt trội so với Opus.

Theo nội dung rò rỉ

“So với mô hình tốt nhất trước đây của chúng tôi, Claude Opus 4.6, Capybara đạt điểm số cao vượt trội trong các bài kiểm tra về lập trình phần mềm, suy luận học thuật và an ninh mạng.”

Điểm đáng chú ý nằm ở đây.

Anthropic cho biết mô hình này “hiện đang vượt xa mọi AI khác về năng lực tấn công mạng” và “báo hiệu một làn sóng mô hình mới có thể khai thác lỗ hổng nhanh hơn rất nhiều so với khả năng phòng thủ”.

Nói cách khác, nó giỏi hack đến mức chính họ cũng lo ngại việc phát hành rộng rãi.

Kế hoạch của Anthropic là cung cấp quyền truy cập sớm cho các chuyên gia phòng thủ an ninh mạng, để họ củng cố hệ thống trước khi mô hình được phổ biến rộng rãi.

Anthropic cho rằng nguyên nhân vụ rò rỉ là do “lỗi con người” trong hệ thống quản lý nội dung.

Ngoài ra, thông tin bị lộ còn bao gồm chi tiết về một buổi gặp mặt kín dành cho CEO tại một dinh thự Anh thế kỷ 18, nơi Dario Amodei dự kiến sẽ trình diễn các năng lực chưa từng công bố của Claude. #ClaudeMythos

Nguồn: Fortune
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9yby1yaS10aG9uZy10aW4tYW50aHJvcGljLXBoYXQtdHJpZW4tbW90LW1vLWhpbmgtZ2lvaS1oYWNrLWRlbi1tdWMtZG8tZHUtcGhhdC1oYW5oLjgxMTE3Lw==
Top