Claude Opus 4.7 nâng cao khả năng lập trình và đa phương thức

Trường Sơn · 08:46

Vào tối ngày 16/4 giờ Mỹ, công ty trí tuệ nhân tạo Anthropic đã công bố mô hình quy mô lớn mới nhất Claude Opus 4.7. Mô hình này hiện có sẵn trên tất cả các sản phẩm của Claude, API chính thức và các nền tảng đám mây của Amazon, Google và Microsoft. Giá cả vẫn giữ nguyên như phiên bản tiền nhiệm, Opus 4.6: 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra.

Theo mô tả chính thức, Opus 4.7 mang lại hiệu suất được nâng cao trong các tác vụ kỹ thuật phần mềm phức tạp, xử lý các tác vụ kéo dài ổn định hơn và tuân thủ nghiêm ngặt các hướng dẫn của người dùng trong quá trình thực thi. Mô hình thể hiện tính nhất quán cao hơn trong các tác vụ kéo dài và tự xác thực đầu ra trước khi cung cấp kết quả.

Tóm lại, Opus 4.7 được thiết kế cho các tác vụ kỹ thuật phức tạp và khó khăn, và hiệu năng của nó được cải thiện đáng kể so với Opus 4.6. Nó hoạt động ổn định và tỉ mỉ hơn, đồng thời sẽ tự kiểm tra trước khi cung cấp kết quả cho người dùng.

Khả năng đa phương thức: Về khả năng xử lý hình ảnh, mô hình hiện hỗ trợ hình ảnh có cạnh dài nhất là 2.576 pixel (khoảng 3,75 triệu pixel), gấp hơn ba lần kích thước của mô hình Claude trước đó. Điều này có nghĩa là nó có thể "nhìn thấy hình ảnh rõ ràng hơn" và thu được nhiều chi tiết hơn, chẳng hạn như văn bản nhỏ, bảng phức tạp hoặc các yếu tố tinh tế trong giao diện.

Việc nâng cấp này cho phép nó xử lý tốt hơn các tác vụ đòi hỏi độ chi tiết hình ảnh cao, chẳng hạn như các tác nhân vận hành máy tính và phân tích biểu đồ phức tạp. Đồng thời, nó có thể thể hiện chất lượng và tính nhất quán cao hơn khi tạo ra nội dung chuyên nghiệp (như thiết kế giao diện, thuyết trình và tài liệu).

Opus 4.7 thể hiện hiệu năng toàn diện và ổn định trên nhiều bài kiểm tra khác nhau, xếp hạng cao trong nhóm các phần mềm hàng đầu. Nó thể hiện khả năng mạnh mẽ trong lập trình, suy luận và các tác vụ đa lĩnh vực, nhưng hơi tụt hậu so với các đối thủ cạnh tranh mới hơn (như Mythos) ở một vài chỉ số cụ thể. Nguồn ảnh: Trang web chính thức của Anthropic.

Về mặt bộ nhớ, Opus 4.7 cải thiện cơ chế bộ nhớ dựa trên hệ thống tập tin, có thể lưu giữ các ghi chú quan trọng trong các tác vụ dài xuyên suốt các phiên làm việc.

Trong các đánh giá của bên thứ ba về GDPval-AA và Finance Agent, Opus 4.7 đạt được điểm số hàng đầu. Tuy nhiên, Anthropic cũng chỉ ra rằng khả năng tổng thể của nó vẫn chưa bằng mô hình Claude Mythos Preview mạnh mẽ hơn của công ty.

Dự án Glasswing ra mắt: Giảm thiểu sự khác biệt và hạn chế tiếp cận

Anthropic cho biết Opus 4.7 là một phần của Dự án Glasswing mà họ đã công bố trước đó. Đây là mô hình đầu tiên áp dụng biện pháp bảo vệ an ninh mạng mới theo dự án "Glass Wing".

Theo mô tả chính thức, các khả năng liên quan đến an ninh mạng của mô hình đã bị suy yếu không đồng đều trong quá trình huấn luyện, khiến nó kém hơn so với Mythos Preview; đồng thời, một cơ chế phát hiện và chặn tự động đã được thêm vào phiên bản phát hành để chặn các yêu cầu liên quan đến mục đích bất hợp pháp hoặc có rủi ro cao về an ninh mạng.

Dữ liệu triển khai thực tế của cơ chế này sẽ được sử dụng để đánh giá xem các mô hình cấp độ Mythos có nên được phát hành rộng rãi hơn trong tương lai hay không. Đối với các chuyên gia bảo mật có nhu cầu chính đáng (như nghiên cứu lỗ hổng, kiểm thử xâm nhập và diễn tập tấn công giả lập), Anthropic cũng đã ra mắt "Chương trình Xác minh An ninh mạng", yêu cầu đăng ký thành viên.

Về điểm số sai lệch tổng thể trong quá trình kiểm toán hành vi tự động, Opus 4.7 cho thấy một số cải tiến so với Opus 4.6 và Sonnet 4.6, nhưng Mythos Preview vẫn hoạt động tốt nhất, với tỷ lệ sai lệch thấp nhất. Nguồn ảnh: Trang web chính thức của Anthropic.

Theo đánh giá nội bộ của Anthropic, Opus 4.7 và Opus 4.6 có cấu hình bảo mật tổng thể tương tự nhau, với tỷ lệ lạm dụng lừa dối, tâng bốc và đồng lõa thấp hơn. Mặc dù có những cải tiến về tính trung thực và khả năng chống lại các cuộc tấn công chèn tín hiệu, mô hình này dễ đưa ra các đề xuất giảm thiểu tác hại quá chi tiết khi xử lý các chất bị kiểm soát, dẫn đến hiệu suất bảo mật trong lĩnh vực này giảm nhẹ so với phiên bản tiền nhiệm.

Tính năng mới được ra mắt đồng thời

Ngoài ra, Anthropic cho biết một số tính năng mới sẽ được ra mắt đồng thời:

Opus 4.7 giới thiệu chế độ xhigh (cực cao) mới: nằm giữa chế độ cao và tối đa, cho phép người dùng cân nhắc kỹ hơn sự đánh đổi giữa độ sâu suy luận và độ trễ phản hồi khi giải quyết các bài toán khó.
Trong Claude Code, cấp độ mặc định cho tất cả các gói đã được nâng lên thành xhigh. Anthropic khuyến nghị người dùng nên bắt đầu với cấp độ high hoặc xhigh khi sử dụng Opus 4.7 cho các tác vụ lập trình hoặc liên quan đến agent.
API bổ sung " Ngân sách nhiệm vụ""Tính năng (trong giai đoạn thử nghiệm công khai): Các nhà phát triển có thể đặt giới hạn sơ bộ về mức tiêu thụ token cho mô hình, để mô hình biết nên chi tiêu nhiều hơn ở đâu và tiết kiệm ở đâu trong các tác vụ dài."
Claude Code giờ đây đã bao gồm lệnh `/ultrareview`: được thiết kế đặc biệt để xem xét mã. Nó sẽ đọc kỹ các thay đổi của bạn, xác định lỗi và các vấn đề về thiết kế, và xem xét mã của bạn như một đồng nghiệp dày dạn kinh nghiệm. Người dùng phiên bản Pro và Max được dùng thử miễn phí ba lần.
Ngoài ra, chế độ tự động đã được mở rộng cho người dùng Max: khi chế độ này được bật, Claude có thể tự đưa ra một số quyết định nhỏ mà không cần hỏi ý kiến người dùng ở mỗi bước, giảm thiểu sự gián đoạn trong quá trình thực hiện các tác vụ dài và cũng ít rủi ro hơn so với tùy chọn "bỏ qua tất cả các quyền".

Việc nâng cấp không chỉ giúp bạn mạnh mẽ hơn mà còn yêu cầu nhiều token hơn.

Anthropic tuyên bố rằng Opus 4.7 là bản nâng cấp trực tiếp từ Opus 4.6, nhưng có hai thay đổi sẽ ảnh hưởng đến việc sử dụng token:

Thứ nhất, Opus 4.7 sử dụng bộ phân tách từ được cập nhật .Mô hình này cải thiện khả năng xử lý văn bản, nhưng đổi lại số lượng token được ánh xạ tới cùng một đầu vào sẽ tăng lên - khoảng 1,0 đến 1,35 lần so với bản gốc, tùy thuộc vào loại nội dung.

Thứ hai, Opus 4.7 làm tăng lượng tư duy cần thiết ở các mức độ cường độ tư duy cao hơn, đặc biệt là trong các vòng sau của các kịch bản kiểu tác nhân. Thay đổi này cải thiện độ tin cậy của mô hình khi xử lý các vấn đề khó khăn, nhưng cũng dẫn đến sự gia tăng tương ứng về số lượng token đầu ra.

Mối quan hệ giữa điểm số mô hình và việc sử dụng token ở các mức độ cường độ suy nghĩ khác nhau trong một bài đánh giá mã hóa nội bộ của tác nhân. Trong bài đánh giá này, mô hình tự động hoàn thành nhiệm vụ chỉ dựa trên một từ gợi ý của người dùng; kết quả có thể không phản ánh việc sử dụng token thực tế trong các kịch bản mã hóa tương tác. Nguồn ảnh: Trang web chính thức của Anthropic.
Thông báo chính thức cho biết người dùng có thể kiểm soát việc sử dụng token theo nhiều cách: điều chỉnh tham số nỗ lực, đặt ngân sách nhiệm vụ hoặc yêu cầu mô hình xuất ra thông tin ngắn gọn hơn trong lời nhắc.

Theo kết quả đánh giá mã hóa nội bộ của Anthropic, việc sử dụng token đã được tối ưu hóa trên tất cả các cấp độ sức mạnh tư duy. Tuy nhiên, khuyến nghị chính thức là người dùng nên so sánh và đánh giá những tối ưu hóa này cùng với lưu lượng truy cập thực tế của doanh nghiệp mình. Đồng thời, Anthropic cũng đã phát hành hướng dẫn di chuyển trên trang web chính thức để cung cấp tài liệu tham khảo cho người dùng nâng cấp từ Opus 4.6 lên Opus 4.7. #Opus47