Claude Fable 5 và Mythos 5: Anthropic hé lộ 'thần thoại' AI, nhưng chỉ một nửa là dành cho bạn

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Khi một "thần thoại" AI được hé lộ, liệu chúng ta có thực sự sẵn sàng đón nhận toàn bộ sức mạnh của nó? Đó là câu hỏi mà Anthropic, nhà phát triển AI hàng đầu, đang đặt ra khi chính thức ra mắt hai mô hình ngôn ngữ mới nhất của mình: Claude Fable 5 và Claude Mythos 5.

Vào rạng sáng nay, Anthropic đã công bố Fable 5 sẽ mở cửa cho người dùng phổ thông, trong khi Mythos 5 vẫn được giữ kín trong vòng "đối tác an toàn đáng tin cậy". Cách đặt tên này rất đặc trưng của Claude, vốn luôn gắn liền với các khái niệm văn học và nghệ thuật. Từ Haiku (thơ haiku) đến Sonnet (thơ sonnet) rồi Opus (kiệt tác nghệ thuật), giờ đây, cái tên đã "phình to" thành Mythos – chính là "thần thoại".

Fable, có nguồn gốc từ tiếng Latin "fabula" (nghĩa là "điều được kể"), đồng nguyên với "mythos" trong tiếng Hy Lạp, thường được dịch là "ngụ ngôn". Cái tên này dường như đã định vị Fable 5 như một phiên bản "công khai của thần thoại", một mô hình cấp độ Mythos nhưng được đóng gói cẩn thận hơn. Theo Anthropic, Fable 5 và Mythos 5 chia sẻ cùng một mô hình nền tảng, chỉ khác ở "vỏ bọc an toàn" phù hợp hơn cho việc phân phối rộng rãi. Dù bảng điểm hiệu năng chính thức đặt cả hai ở cùng một vị trí, chúng ta đều hiểu rằng nếu hiệu suất hoàn toàn giống nhau, có lẽ Anthropic đã không cần phải đặt hai cái tên khác biệt.

"Thần thoại" đã được viết lại, được nén lại và thêm vào những lời răn dạy, biến thành một ngụ ngôn.

Theo tài liệu chính thức, Fable 5 là phiên bản công khai, dành cho người dùng và nhà phát triển. Tuy nhiên, trong các lĩnh vực rủi ro cao như an ninh mạng, sinh học, hóa học và chưng cất mô hình, một bộ phân loại an toàn bổ sung sẽ can thiệp. Nếu hệ thống nhận định yêu cầu có thể liên quan đến các hướng nhạy cảm này, câu trả lời sẽ không do Fable 5 hoàn thành mà tự động chuyển về Claude Opus 4.8.

Mythos 5, dựa trên cùng một mô hình nền tảng, lại được gỡ bỏ một số "hàng rào bảo vệ" của Fable 5 trong các lĩnh vực nhất định. Anthropic cho biết, các đối tác an ninh mạng trong Project Glasswing có thể sử dụng Mythos 5 "full sức mạnh". Trong tương lai, một số nhà nghiên cứu khoa học sự sống cũng có thể tiếp cận phiên bản đã gỡ bỏ giới hạn sinh học và hóa học thông qua chương trình truy cập đáng tin cậy.

Tạm gác lại Mythos 5 mà chúng ta chưa thể tiếp cận, hãy cùng xem xét những điều cụ thể hơn.

Đầu tiên là giá cả, chỉ một từ thôi: đắt.

Fable 5 có giá 10 USD (khoảng 254.000 VNĐ) cho mỗi triệu token đầu vào và 50 USD (khoảng 1.270.000 VNĐ) cho mỗi triệu token đầu ra. Các nhà phát triển hiện đã có thể gọi API của Claude với tên mô hình `claude-fable-5`. Mức giá này cao gấp đôi so với Opus 4.8 và tương đương với chế độ nhanh của Opus 4.8, cho thấy Anthropic đã định vị Fable 5 ở một phân khúc giá cao hơn.

Anthropic cũng tuyên bố mức giá này chưa bằng một nửa so với Claude Mythos Preview trước đây. Tuy nhiên, vì Mythos Preview không phải là mô hình API công khai, chúng ta không thể xác minh được tuyên bố này.

Người dùng đăng ký cũng cần lưu ý rằng Fable 5 có thể không được bao gồm vĩnh viễn trong gói đăng ký cơ bản. Anthropic cho biết, sau ngày 23 tháng 6, ngay cả khi đã đăng ký Claude, Fable 5 có thể được cung cấp theo mức sử dụng tùy thuộc vào tình hình tài nguyên tính toán, chứ không nhất thiết nằm trong dịch vụ đăng ký cơ bản. Công ty này ngày càng "tiết kiệm" hơn, nhưng ít nhất vẫn còn gần nửa tháng dùng thử. Anthropic cũng để ngỏ khả năng: nếu tài nguyên đủ sau ngày 23 tháng 6, họ sẽ cố gắng tiếp tục đưa Fable 5 vào các gói đăng ký Pro, Max.

Giá cao không phải là điều khó hiểu, nhưng nó cần phải tương xứng với khả năng.

Từ các bảng điểm hiệu năng, Fable 5/Mythos 5 về cơ bản là những mô hình mạnh nhất mà Anthropic công khai cho đến nay. Tuy nhiên, một lưu ý trong bảng điểm chính thức cho biết điểm số của Claude Fable 5 và Claude Mythos 5 thường chỉ chênh lệch 1-3% (ngoại trừ các bài kiểm tra an ninh mạng và sinh học có dấu sao), nên bảng hiển thị điểm cao hơn của cả hai. Điều này khiến chúng ta không khỏi thắc mắc.

Anthropic tập trung vào một số lĩnh vực chính cho Fable 5: kỹ thuật phần mềm, công việc tri thức, thị giác, khả năng ghi nhớ ngữ cảnh dài và nghiên cứu khoa học sự sống.

Kỹ thuật phần mềm là một trong những kịch bản nổi bật nhất. Theo bảng điểm, Fable/Mythos 5 đạt 80,3% trên SWE-Bench Pro, cao hơn đáng kể so với 69,2% của Opus 4.8. Trên FrontierCode Diamond khó hơn, nó đạt 29,3%, trong khi Opus 4.8 chỉ có 13,4% và GPT-5.5 chỉ 5,7%.

Trong các tác vụ tri thức và thị giác, Anthropic đưa ra hai loại bằng chứng. Một là các benchmark tiêu chuẩn: Fable/Mythos 5 đạt 1932 điểm trên GDPval-AA, cao hơn Opus 4.8, GPT-5.5 và Gemini 3.1 Pro. Trong các tác vụ tài liệu có hiểu biết thị giác như GDP.pdf, nó đạt 29,8%, cũng vượt trội so với các mô hình chính khác.

Loại bằng chứng thứ hai là từ các khách hàng thử nghiệm sớm. Anthropic cho biết Fable 5 đạt điểm cao nhất trong tiêu chuẩn suy luận tài chính nâng cao của Hebbia, với ưu thế tập trung vào suy luận tài liệu, hiểu biểu đồ và bảng biểu, giải quyết vấn đề. IMC cũng phản hồi rằng nó gần như hoàn toàn vượt qua các đánh giá phân tích giao dịch.

Để minh họa khả năng thị giác của Fable 5, Anthropic đưa ra ví dụ: trước đây, các mô hình Claude cần công cụ hỗ trợ phức tạp để chơi trò "Pokémon Fire Red", nhưng Fable 5 chỉ cần đầu vào thị giác là có thể hoàn thành trò chơi.

Về khả năng xử lý tác vụ dài và ghi nhớ, Anthropic khẳng định Fable 5 có thể duy trì sự tập trung trong các tác vụ dài hàng triệu token và sử dụng ghi chú của chính mình để cải thiện đầu ra. Trong các trò chơi yêu cầu quyết định liên tục và chiến lược dài hạn như "Slay the Spire", nếu Fable 5 được kết nối với bộ nhớ tệp bền vững để ghi lại các lựa chọn và kinh nghiệm trước đó, hiệu suất của nó sẽ cải thiện đáng kể. Mức độ cải thiện gấp ba lần so với Opus 4.8, và số lần đạt đến màn cuối cùng cũng tăng gấp ba.

Nhân tiện, Fable cũng là tên của một trò chơi RPG kinh điển, được dịch sang tiếng Việt là "Thần thoại". Có lẽ một ngày nào đó chúng ta sẽ thấy Fable chơi "Fable".

Ngoài ra, về khả năng an ninh mạng, Fable/Mythos 5 đạt 78,0% trên ExploitBench Cap%, vượt qua 69,0% của Claude Mythos Preview và gần gấp đôi Opus 4.8. Ở đây, có lẽ là điểm số của Mythos 5, vì Fable 5 sẽ chuyển về Opus 4.8 đối với các yêu cầu rủi ro cao.

Anthropic đã trình bày khả năng của mô hình thông qua một loạt các "tác phẩm" minh họa, mỗi demo chỉ kèm theo một đoạn chú thích ngắn.

Ví dụ, Fable 5 đã viết một mô phỏng hệ mặt trời, suy luận chuyển động quỹ đạo của các hành tinh từ các nguyên lý vật lý cơ bản và sử dụng nó để dự đoán nhật thực.

Hay như việc nó có thể tự chơi "Factorio", một trò chơi tự động hóa nhà máy được các kỹ sư yêu thích, nơi người chơi phải thu thập tài nguyên, quy hoạch dây chuyền sản xuất, xây dựng hệ thống hậu cần và năng lượng. Anthropic dùng ví dụ này để minh họa rằng Fable 5 có thể xây dựng chiến lược trong một môi trường mở và liên tục thúc đẩy việc xây dựng một hệ thống phức tạp.

Trong một demo khác, Fable 5 đã tự tạo ra một trình chỉnh sửa CAD dựa trên trình duyệt, sau đó sử dụng chính công cụ CAD do mình phát triển này để thiết kế một mô hình hoàn chỉnh có thể in 3D. Trình chỉnh sửa này còn tích hợp một AI copilot để hỗ trợ mô hình hóa. Điểm nhấn của demo này là Fable 5 đã hoàn thành một vòng lặp khép kín: tự tạo công cụ, tự sử dụng công cụ, và cuối cùng hoàn thành một tác vụ thiết kế vật lý.

Demo cuối cùng, Anthropic trình diễn một mô phỏng chất lỏng do Fable 5 viết, với nhịp điệu chuyển động đồng bộ với một bản EDM remix nhạc cổ điển. Anthropic còn đặc biệt nhấn mạnh rằng âm nhạc cũng do Fable 5 tạo ra bằng mã.

Những trường hợp này có vẻ hào nhoáng, nhưng ý nghĩa chung là: Fable 5 rất giỏi trong việc kết hợp mã, thị giác, vật lý, thiết kế và lập kế hoạch dài hạn để thực hiện các tác vụ.

Nếu phần trên cho thấy Fable 5 có thể làm được gì trong tay nhà phát triển, thì phần tiếp theo sẽ nói về những gì Mythos 5 có thể làm trong tay nhà nghiên cứu – và lý do Anthropic phải tách Fable và Mythos.

Anthropic cho biết, theo đánh giá của các chuyên gia thiết kế protein nội bộ, Mythos 5 đã tăng tốc một số khâu trong quy trình thiết kế thuốc lên khoảng 10 lần. Trong một trường hợp cụ thể, Mythos 5, khi được kết nối với các công cụ thiết kế protein và tin sinh học mà không cần sự can thiệp của con người, có thể đạt được hoặc thậm chí vượt qua hiệu suất của các nhà vận hành lành nghề.
1781060790668.png

Trong tác vụ này, Mythos 5 không chỉ đơn thuần trả lời câu hỏi mà còn hoàn thành toàn bộ quy trình làm việc khoa học: chọn vị trí liên kết, chọn và chạy công cụ thiết kế protein, tự phục hồi khi thất bại. Anthropic cho biết, trong 14 mục tiêu protein của nghiên cứu này, 9 mục tiêu đã tạo ra các phân tử ứng cử viên mạnh mẽ và hiện đang được nghiên cứu sâu hơn.

Anthropic cũng đề cập rằng Mythos 5 có thể ổn định đưa ra các giả thuyết sinh học phân tử mới lạ và hấp dẫn. Trong một thử nghiệm mù so sánh với các mô hình cấp độ Opus, các nhà khoa học nội bộ đã ưu tiên các giả thuyết do Mythos đưa ra khoảng 80% thời gian, và một số trong số đó đã được đưa vào đánh giá thực nghiệm. Đồng thời, một giả thuyết của Mythos 5 về cơ chế mới của protein E. coli đã được xác nhận trong nghiên cứu của một phòng thí nghiệm độc lập khác đang nghiên cứu cùng vấn đề.

Thậm chí, nó còn thực hiện một nghiên cứu về bộ gen.

Anthropic cho biết, Mythos 5 đã gần như tự chủ hoàn thành một nghiên cứu bộ gen mới trong hơn một tuần. Nó đã sắp xếp dữ liệu tế bào đơn từ 138 loài động vật, hàng triệu tế bào, và thiết kế, huấn luyện một mô hình học máy tùy chỉnh để nhận diện các tế bào thực hiện cùng một vai trò ở các loài khác nhau.

Điều đáng kinh ngạc hơn là Anthropic tuyên bố, hiệu suất của mô hình do Mythos 5 huấn luyện đã vượt qua một mô hình được công bố gần đây trên tạp chí "Science", mặc dù quy mô của nó chỉ bằng một phần trăm của mô hình kia. Anthropic cho biết họ dự định công bố những kết quả này trong vài tháng tới.

Tất nhiên, phần này vẫn cần chờ đợi các bài báo và đánh giá độc lập. Nhưng nếu chỉ nhìn vào thông tin mà Anthropic cung cấp, khả năng của Mythos 5 trong khoa học sự sống đã gần như một "Agent nghiên cứu": có thể đọc vấn đề, sử dụng công cụ, xử lý dữ liệu, huấn luyện mô hình, đưa ra giả thuyết và thúc đẩy một nghiên cứu đến mức có thể công bố.

Và một khi mô hình có thể thực sự thúc đẩy các tác vụ trong thiết kế thuốc, vector virus, thiết kế protein, nghiên cứu bộ gen, nó tự nhiên sẽ có khả năng "lưỡng dụng".

Có thể coi phần khoa học sự sống này không phải là một minh họa chức năng thông thường của Fable 5, mà là giới hạn khả năng của Mythos 5. Việc nó được trình bày ra là để chứng minh rằng bộ mô hình nền tảng mà Anthropic đang nắm giữ đã mạnh đến mức phải được phân phối thông qua quyền truy cập đáng tin cậy.

Điều thú vị là, việc phát hành mô hình trước đây thường giống như một sự kiện sản phẩm công nghệ: thông số, điểm chuẩn, giá cả, độ dài ngữ cảnh, tên API. Mạnh là mạnh, phát hành là phát hành.

Nhưng đến Mythos, mọi thứ bắt đầu trở nên phức tạp. Cùng một mô hình nền tảng được chia thành hai phiên bản: người dùng phổ thông nhận Fable 5, các nhà nghiên cứu an ninh và một số nhà nghiên cứu khoa học sự sống nhận Mythos 5. Phiên bản trước được đặt trong các hàng rào bảo vệ nghiêm ngặt hơn, phiên bản sau yêu cầu quyền truy cập đáng tin cậy.

Khả năng của mô hình không còn chỉ có sự khác biệt về mức độ cao thấp, mà còn bắt đầu có sự khác biệt về quyền hạn, kịch bản và trách nhiệm.

Theo một nghĩa nào đó, đây có thể được coi là tín hiệu cho thấy thương mại hóa các mô hình tiên tiến đang bước vào một giai đoạn mới – mô hình càng mạnh, càng khó có thể được công khai hoàn toàn cho tất cả mọi người. Chúng sẽ được chia thành các phiên bản khác nhau, đặt trong các ranh giới an toàn khác nhau, và sau đó giao cho các loại người dùng khác nhau.

Anthropic đã làm điều này trước, bởi vì các mô hình của họ "mạnh đến mức không thể công khai hoàn toàn". Trong tương lai, các công ty khác muốn kể câu chuyện của mình, muốn chứng minh mô hình của họ cũng rất mạnh, có lẽ cũng sẽ học theo cách này.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9jbGF1ZGUtZmFibGUtNS12YS1teXRob3MtNS1hbnRocm9waWMtaGUtbG8tdGhhbi10aG9haS1haS1uaHVuZy1jaGktbW90LW51YS1sYS1kYW5oLWNoby1iYW4uODQ3MTgv
Top