Mô hình AI mạnh nhất thế giới Claude Fable 5 của Anthropic từ chối trả lời những câu hỏi sinh học cấp ba

Hư Trúc · 16:29

Anthropic vừa chính thức ra mắt Claude Fable 5, mô hình AI được hãng tuyên bố là mạnh mẽ nhất từ trước đến nay từng được cung cấp rộng rãi. Mặc dù được ca ngợi về khả năng vượt trội trong nhiều lĩnh vực khoa học, bao gồm cả sinh học, Fable 5 lại bất ngờ từ chối trả lời những câu hỏi sinh học ở mức độ cơ bản nhất mà một học sinh phổ thông cũng có thể nắm rõ.

Khi người dùng hỏi về cấu trúc tế bào hay cơ chế hoạt động của các loại vắc-xin phổ thông, mô hình này lập tức im lặng hoặc chuyển hướng yêu cầu sang phiên bản cũ hơn. Thực tế này không xuất phát từ việc Claude Fable 5 thiếu kiến thức, mà là một giới hạn an toàn được thiết lập hoàn toàn có chủ đích từ phía Anthropic nhằm kiểm soát các nguy cơ sinh học nghiêm trọng trước khi mô hình được phổ biến rộng rãi.

Hàng rào bảo vệ quá mức trước những câu hỏi phổ thông

Fable thuộc dòng mô hình phân lớp Mythos của Anthropic, vốn sở hữu năng lực vượt trội về an ninh mạng. Đây là nhóm mô hình mạnh đến mức Anthropic từng cảnh báo chúng quá nguy hiểm để phát hành rộng rãi ra công chúng. Tuy nhiên, thay vì chỉ siết chặt an ninh mạng, sinh học mới là lĩnh vực mà các rào cản của Fable thể hiện rõ ràng và gây hạn chế nhiều nhất cho người dùng.

Trong các thử nghiệm thực tế do phóng viên Robert Hart của tờ The Verge thực hiện, Claude Fable 5 liên tục từ chối phản hồi hàng loạt câu hỏi sinh học cơ bản và hoàn toàn vô hại.

Mô hình không trả lời các câu hỏi như "hãy kể cho tôi nghe về màng tế bào" hay "ti thể là gì" - bộ phận vốn được biết đến rộng rãi là nhà máy năng lượng của tế bào.

Nó cũng từ chối giải thích cấu trúc prion gây bệnh bò điên, hay cơ chế hoạt động của vắc-xin mRNA.

Bộ lọc nghiêm ngặt này còn chặn đứng cả những thắc mắc y tế thông thường hàng ngày. Fable từ chối giải thích nguyên nhân gây sốt, cách thức hoạt động của thuốc điều trị hen suyễn, cơ chế phát sinh hiện tượng kháng kháng sinh, hoặc thông tin cơ bản về virus Ebola và cách thức lây lan của nó.

Hệ thống lọc hoạt động không đồng nhất khi Fable vẫn chấp nhận trả lời một vài câu hỏi cơ bản khác như "ung thư là gì" hay "DNA là gì". Trong hầu hết trường hợp bị Fable từ chối, mô hình Claude Opus 4.8 sẽ tiếp quản cuộc hội thoại và đưa ra câu trả lời đầy đủ.

Lý do Anthropic chấp nhận sự cứng nhắc

Phát ngôn viên Paruul Maheshwary của Anthropic giải thích rằng bộ lọc sinh học diện rộng này là một lựa chọn có chủ đích và cực kỳ cẩn trọng, với mục tiêu hàng đầu là ngăn chặn nguy cơ liên quan đến vũ khí sinh học.

Phía công ty nhận định rằng với sự xuất hiện của Claude Fable 5, các mô hình AI hiện nay đã có khả năng thực hiện các nhiệm vụ khoa học trong thế giới thực tốt hơn, dẫn tới rủi ro bị các tác nhân độc hại lợi dụng cho các nghiên cứu sinh học nguy hiểm.

Để đưa Fable 5 ra thị trường một cách an toàn, Anthropic chấp nhận thiết lập các biện pháp bảo vệ mang tính "quá bảo thủ" nhằm chặn hầu hết các truy vấn liên quan đến nghiên cứu sinh học. Đại diện hãng cho biết đây là sự đánh đổi cần thiết để người dùng có thể sớm tiếp cận các năng lực khác của mô hình mà không vấp phải rủi ro lớn.

Trước đó, Anthropic đã xác định bốn lĩnh vực chính mà họ sẽ siết chặt phản hồi của Fable vì lý do an toàn bao gồm: hóa học, sinh học, an ninh mạng và kỹ thuật chưng cất tri thức (distillation). Công ty từng cáo buộc các đối thủ từ Trung Quốc, điển hình là DeepSeek, đã sử dụng kỹ thuật chưng cất tri thức này trên các mô hình của họ ở quy mô công nghiệp.

Sự khác biệt trong việc kiểm soát các lĩnh vực nhạy cảm

Trái ngược với sự khắt khe trong mảng sinh học, Claude Fable 5 tỏ ra cởi mở hơn khi xử lý các câu hỏi về hóa học và an ninh mạng.

Mô hình vẫn cung cấp thông tin tổng quan cơ bản về chất nổ TNT (dù từ chối cung cấp công thức chế tạo), giải đáp về việc sử dụng khí clo làm vũ khí hóa học, phân tích các mối đe dọa mật khẩu phổ biến, giải thích về phản ứng phân hạch và nhiệt hạch hạt nhân, cũng như hướng dẫn cách bảo mật iPhone trước hacker.

Tuy nhiên, ranh giới đỏ vẫn tồn tại rất rõ ràng. Fable lập tức chuyển hướng sang mô hình Opus khi nhận được câu hỏi về chất độc thần kinh sarin. Đối với yêu cầu nguy hiểm trực tiếp như "cách chế tạo vi khuẩn than" (anthrax), cả Fable và Opus đều từ chối thẳng thừng, đồng thời hệ thống tự động tạm dừng toàn bộ cuộc trò chuyện.

Sự từ chối đối với những câu hỏi như định nghĩa ti thể rõ ràng là một lỗi nhận diện nhầm (false positive). Anthropic cho biết họ đang nỗ lực cải thiện khả năng phát hiện của bộ lọc để giảm thiểu tình trạng này.

Trong tương lai, hãng dự kiến sẽ cung cấp các mô hình lớp Mythos không kèm theo các bộ lọc nghiêm ngặt này cho cộng đồng nghiên cứu khoa học đời sống và sinh học rộng lớn hơn, nhằm hỗ trợ đẩy nhanh tiến trình nghiên cứu y sinh và phát triển thuốc.

Kết luận

Hiện tại, Anthropic vẫn chưa đưa ra câu trả lời rõ ràng về việc liệu kiểu phát hành hạn chế tính năng này có trở thành tiêu chuẩn mới cho các mô hình AI thế hệ tiếp theo hay không. Trước mắt, người dùng phổ thông sẽ phải chấp nhận việc các mô hình AI thông minh nhất đôi khi lại tỏ ra hạn chế hơn các phiên bản cũ trước những kiến thức khoa học cơ bản, tất cả vì mục tiêu kiểm soát an toàn toàn cầu.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Mô hình AI mạnh nhất thế giới Claude Fable 5 của Anthropic từ chối trả lời những câu hỏi sinh học cấp ba

Hư Trúc

Writer

Hư Trúc

Hàng rào bảo vệ quá mức trước những câu hỏi phổ thông

Lý do Anthropic chấp nhận sự cứng nhắc

Sự khác biệt trong việc kiểm soát các lĩnh vực nhạy cảm

Kết luận

Ứng dụng Claude Desktop trên Windows "ngốn" lượng RAM khổng lồ, không có cách nào ngăn chặn

Khả năng tập trung của con người "chạm đáy" còn 47 giây: Cái giá khi giao phó tư duy cho AI

Không "đấu" lại Claude về trí thông minh, OpenAI sẽ giảm giá ChatGPT để "hút" người dùng?

Claude Fable 5 là gì? Tổng quan về mô hình AI mạnh nhất của Anthropic

OpenAI sắp IPO trong năm tới, hé lộ AI 5.6 đột phá hơn GPT-5.5

Đại mô hình Trung Quốc mắc kẹt trong bẫy nhận thức: Lập trình và văn phòng là lối thoát tỷ đô?

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

Honor bất ngờ ra mắt máy tính bảng “pin chờ 3 tháng” ở Việt Nam

Đánh giá nổi bật

Chủ đề hot

Có thể bạn quan tâm

Mô hình AI mạnh nhất thế giới Claude Fable 5 của Anthropic từ chối trả lời những câu hỏi sinh học cấp ba

Writer

Hàng rào bảo vệ quá mức trước những câu hỏi phổ thông​

Lý do Anthropic chấp nhận sự cứng nhắc​

Sự khác biệt trong việc kiểm soát các lĩnh vực nhạy cảm​

Kết luận​

Ứng dụng Claude Desktop trên Windows "ngốn" lượng RAM khổng lồ, không có cách nào ngăn chặn

Khả năng tập trung của con người "chạm đáy" còn 47 giây: Cái giá khi giao phó tư duy cho AI

Không "đấu" lại Claude về trí thông minh, OpenAI sẽ giảm giá ChatGPT để "hút" người dùng?

Claude Fable 5 là gì? Tổng quan về mô hình AI mạnh nhất của Anthropic

OpenAI sắp IPO trong năm tới, hé lộ AI 5.6 đột phá hơn GPT-5.5

Đại mô hình Trung Quốc mắc kẹt trong bẫy nhận thức: Lập trình và văn phòng là lối thoát tỷ đô?

Hàng rào bảo vệ quá mức trước những câu hỏi phổ thông

Lý do Anthropic chấp nhận sự cứng nhắc

Sự khác biệt trong việc kiểm soát các lĩnh vực nhạy cảm

Kết luận