ClaudeFable 5: AI mạnh nhất Anthropic bị hạn chế sinh học vì nỗi lo vũ khí sinh học

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Một mô hình AI mạnh mẽ đến mức nào thì mới cần phải "giả vờ" không biết những kiến thức sinh học cơ bản mà học sinh cấp ba cũng nắm rõ? Đó chính là câu chuyện đang diễn ra với ClaudeFable 5, phiên bản AI mới nhất và được Anthropic quảng bá là mạnh mẽ nhất dành cho công chúng, ra mắt vào ngày 10 tháng 6 vừa qua. Dù được ca ngợi về khả năng trong nhiều lĩnh vực, đặc biệt là sinh học, nhưng thực tế lại cho thấy Fable 5 thường xuyên từ chối trả lời những câu hỏi đơn giản nhất về chủ đề này, thay vào đó lại chuyển hướng sang người tiền nhiệm Claude Opus 4.8.

Điều đáng nói ở đây không phải là Fable 5 không biết câu trả lời. Theo IT之家, đây là một hạn chế được Anthropic chủ động thiết kế. Fable 5 thuộc dòng mô hình "Mythos cấp độ", vốn cực kỳ mạnh mẽ trong các nhiệm vụ liên quan đến an ninh mạng. Anthropic từng thẳng thắn thừa nhận rằng việc mở cửa những mô hình như vậy cho công chúng tiềm ẩn rủi ro rất lớn. Trong quá trình phát triển các mô hình Mythos, Anthropic đã nhiều lần nhấn mạnh về nguy cơ an ninh mạng, và lĩnh vực sinh học chính là nơi Fable 5 bị hạn chế nghiêm ngặt nhất.
1781146565333.png

Thử nghiệm thực tế của The Verge đã chỉ ra rằng Fable 5 từ chối trả lời hàng loạt câu hỏi sinh học cơ bản, thậm chí cả những câu hỏi không hề có bất kỳ mối lo ngại an toàn nào. Từ việc "giới thiệu về màng tế bào", "giải thích ti thể – nhà máy năng lượng của tế bào", cho đến cơ chế hoạt động của prion gây bệnh bò điên hay vắc-xin mRNA, Fable 5 đều không phản hồi. Những hạn chế này cũng áp dụng cho các vấn đề y tế hàng ngày, vô hại như nguyên nhân gây sốt cỏ khô, cách thuốc hen hoạt động, sự phát triển của kháng thuốc kháng sinh hay cách virus Ebola lây lan. Chỉ một số ít câu hỏi cơ bản như "ung thư là gì" hay "DNA là gì" đôi khi mới được trả lời. Đáng chú ý, mỗi khi Fable 5 từ chối, Opus 4.8 gần như luôn đưa ra câu trả lời đầy đủ.

Anthropic giải thích rằng việc chặn diện rộng các câu hỏi liên quan đến sinh học là một hành động có chủ đích, với tiêu chuẩn bảo vệ được đặt ra cực kỳ thận trọng. Mối lo ngại cốt lõi là phòng ngừa các rủi ro liên quan đến vũ khí sinh học. Bà Parul Maheshwari, người phát ngôn của công ty, chia sẻ rằng: "Với sự ra mắt của ClaudeFable 5, mô hình Mythos cấp độ đầu tiên, chúng tôi nhận thấy khả năng của các mô hình AI trong việc thực hiện các nhiệm vụ nghiên cứu khoa học thực tế đã tăng lên đáng kể. Những kẻ có ý đồ xấu có thể lợi dụng các mô hình này để tiến hành nghiên cứu sinh học rủi ro cao. Chúng tôi luôn sử dụng các bộ phân loại để chặn các yêu cầu liên quan đến vũ khí sinh học. Để Fable 5 ra mắt an toàn, chúng tôi buộc phải áp dụng một chiến lược bảo vệ thận trọng, chặn hầu hết các câu hỏi liên quan đến nghiên cứu sinh học."

Trước đó, Anthropic đã xác định bốn lĩnh vực mà Fable 5 sẽ bị hạn chế vì lý do an toàn: hóa học, sinh học, an ninh mạng và kỹ thuật chưng cất mô hình (sử dụng kết quả đầu ra của mô hình lớn để huấn luyện mô hình AI nhỏ hơn). Công ty cũng từng cáo buộc các đối thủ cạnh tranh như DeepSeek của Trung Quốc đã sử dụng kỹ thuật chưng cất mô hình của họ ở quy mô công nghiệp.

Tuy nhiên, Fable 5 lại có vẻ "dễ tính" hơn với các câu hỏi về hóa học và an ninh mạng. Chẳng hạn, nó có thể giới thiệu ngắn gọn về thuốc nổ TNT (nhưng không cung cấp cách chế tạo vì lý do an toàn), hoặc trả lời về công dụng của khí clo như một vũ khí hóa học, các lỗ hổng bảo mật mật khẩu phổ biến, nguyên lý phản ứng tổng hợp và phân hạch hạt nhân, hay cài đặt chống hack của iPhone. Dù vậy, các hạn chế vẫn tồn tại: khi được hỏi về chất độc thần kinh sarin, Fable 5 sẽ chuyển câu hỏi cho Opus 4.8. Và đối với câu hỏi "làm thế nào để tạo ra vi khuẩn than", cả hai mô hình đều từ chối thẳng thừng và cuộc trò chuyện bị gián đoạn – một hạn chế hoàn toàn hợp lý. Nhưng việc chặn cả những câu hỏi cơ bản như về ti thể rõ ràng là một sự cấm đoán sai lầm.

Bà Maheshwari giải thích thêm: "Chúng tôi chấp nhận sự đánh đổi này để người dùng có thể trải nghiệm sức mạnh của mô hình sớm nhất có thể, đồng thời tránh được các rủi ro tiềm ẩn. Hiện tại, đội ngũ đang nỗ lực tối ưu hóa cơ chế nhận diện để giảm thiểu các trường hợp chặn nhầm. Trong tương lai, chúng tôi dự định ra mắt các mô hình Mythos cấp độ đã được gỡ bỏ các hạn chế này, dành riêng cho các chuyên gia trong lĩnh vực sinh học và khoa học đời sống, nhằm thúc đẩy nghiên cứu y sinh và phát triển thuốc."

Anthropic vẫn chưa đưa ra phản hồi về việc liệu mô hình phát hành có giới hạn như vậy có trở thành một thông lệ mới trong tương lai hay không. Đây là một thách thức lớn mà các nhà phát triển AI đang phải đối mặt: làm thế nào để khai thác tối đa tiềm năng của trí tuệ nhân tạo mà vẫn đảm bảo an toàn tuyệt đối cho cộng đồng.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9jbGF1ZGVmYWJsZS01LWFpLW1hbmgtbmhhdC1hbnRocm9waWMtYmktaGFuLWNoZS1zaW5oLWhvYy12aS1ub2ktbG8tdnUta2hpLXNpbmgtaG9jLjg0ODIyLw==
Top