So sánh Claude Opus 4.7 với Opus 4.6

Hoàng Đức · 52 phút

So sánh trực tiếp giữa Claude Opus 4.7 và Opus 4.6: sự khác biệt về hiệu năng, giá cả, mức độ nỗ lực, tầm nhìn, bộ mã hóa và danh sách kiểm tra quá trình chuyển đổi. Opus 4.7 thắng 12 trong số 14 tiêu chí đánh giá được báo cáo với cùng mức giá $5/$25.

Claude Opus 4.7 vượt trội hơn Opus 4.6 trên 12 trong số 14 bài kiểm tra hiệu năng được báo cáo với cùng mức giá 5 đô la / 25 đô la cho mỗi triệu token. Phiên bản 4.7 với nỗ lực thấp có chất lượng tương đương với phiên bản 4.6 với nỗ lực trung bình, do đó chi phí cho mỗi tác vụ giảm ngay cả khi giá mỗi token là như nhau. BrowseComp (-4.7) là sự suy giảm thực sự duy nhất; CyberGym (-0.7) là sự suy giảm có chủ ý.

Anthropic đã phát hành Claude Opus 4.7 vào ngày 16/4/2026 giờ Mỹ, tức sáng sớm nay giờ VN, hai tháng sau Opus 4.6. Đây là bản nâng cấp cùng cấp độ - không phải là một dòng mô hình mới - và điểm nổi bật rất rõ ràng: cùng mức giá, khả năng cao hơn trên mỗi token, thời gian hoạt động tự động lâu hơn. Bài viết này sẽ so sánh trực tiếp hai phiên bản. Mọi tiêu chuẩn, mọi mức giá, mọi thay đổi về hành vi và danh sách kiểm tra chuyển đổi mà bạn có thể sử dụng làm tài liệu tham khảo khi chuyển đổi mô hình trong môi trường sản xuất.

Tổng kết

Opus 4.7 là bản nâng cấp trực tiếp từ Opus 4.6. Nó vượt trội hơn 4.6 trên 12 trong số 14 bài kiểm tra hiệu năng được báo cáo, bổ sung thêm mức độ phản hồi nỗ lực cao (xhigh effort), hiển thị hình ảnh ở độ phân giải cao hơn 3,3 lần, tuân thủ hướng dẫn chính xác hơn và giới thiệu tính năng tự xác minh cho các tác vụ tác nhân kéo dài. Giá mỗi token không thay đổi. Mức độ trả lời hời hợt (Low-effort) của 4.7 tương đương với mức độ trung bình (Medium-effort) của 4.6, do đó chi phí thực tế cho mỗi tác vụ hoàn thành giảm xuống ngay cả khi mức giá $5 / $25 là như nhau.

Có hai lưu ý quan trọng cần biết trước khi chuyển đổi. Thứ nhất, bộ phân tách từ được cập nhật có thể ánh xạ (biến một dạng dữ liệu đầu vào thành một dạng đầu ra tương ứng theo một quy tắc nào đó) cùng một văn bản thành số lượng từ nhiều hơn 1,0–1,35 lần so với phiên bản 4.6, điều này ảnh hưởng đến việc lập ngân sách. Thứ hai, vì phiên bản 4.7 hiểu các lời nhắc theo nghĩa đen hơn, nên các lời nhắc được điều chỉnh cho cách hiểu lỏng lẻo hơn của phiên bản 4.6 có thể hoạt động sai. Cả hai đều dễ dàng kiểm tra nhưng vẫn nên xem xét kỹ.

So sánh song song nhanh

Về mặt thương mại, không có gì thay đổi: cửa sổ ngữ cảnh vẫn vậy, các bậc giá vẫn vậy, các nền tảng vẫn vậy. Sự khác biệt nằm ở khâu vận hành - mức độ nỗ lực mới, bộ mã hóa được cập nhật, khả năng hiển thị độ phân giải cao hơn và các hành vi mới liên quan đến việc tự xác minh và tuân theo hướng dẫn.

Điểm chuẩn Delta

Mọi chỉ số tham chiếu bên dưới đều do Anthropic tự báo cáo trong thông báo ra mắt Opus 4.7 . Biểu đồ được sắp xếp theo mức chênh lệch (delta) để những biến động lớn nhất xuất hiện trước. Các thanh dương (màu cam của Anthropic) biểu thị sự tăng trưởng; các thanh âm (màu hồng) biểu thị sự suy giảm.

Trang kết quả so sánh cho thấy sự cải thiện tập trung vào những bài toán khó nhất và ít được xử lý nhất: SWE-bench Pro (+10,9pp) tăng nhiều hơn SWE-bench Verified (+6,8pp), HLE không dùng công cụ (+6,9pp) tăng nhiều hơn HLE dùng công cụ (+1,6pp), và MCP-Atlas (+14,6pp) - bài kiểm tra hiệu năng sử dụng công cụ - đạt mức tăng lớn nhất trong bản phát hành này.

Số liệu từ các đối tác củng cố thêm câu chuyện về hiệu suất vượt trội. Replit báo cáo chất lượng đầu ra tương đương với chi phí thấp hơn, Rakuten đo được số lượng tác vụ sản xuất được giải quyết nhiều hơn gấp 3 lần, và Cursor báo cáo đạt 70% trên CursorBench so với 58% của Opus 4.6.

Agent

BrowseComp là sự suy giảm thực sự duy nhất. Tỷ lệ 84,0% của Opus 4.6 được đo lường dưới sự kiểm tra đa tác nhân ở mức nỗ lực tối đa; sự so sánh này nhạy cảm với lựa chọn hệ thống kiểm tra, nhưng sự khác biệt đủ rõ ràng để cần lưu ý. CyberGym về cơ bản được thiết kế để hoạt động ổn định - Anthropic tuyên bố rằng họ đã "thử nghiệm các nỗ lực để giảm thiểu một cách khác biệt" khả năng tấn công mạng trong quá trình huấn luyện.

Bản dịch ảnh tự động, đây là Vision - tức thị giác máy tính, trong AI là “hiểu dữ liệu ở mức chi tiết hơn"
Điểm khác biệt khi không sử dụng công cụ nào mới là điều quan trọng: +13,4pp cho thấy khả năng nhận diện hình ảnh chứ không phải công cụ cắt ảnh. XBOW cũng báo cáo điểm số độ sắc nét hình ảnh là 98,5% trên Opus 4.7 (so với 54,5% trên 4.6) - đủ lớn để mở khóa các quy trình kiểm thử xâm nhập tự động mà trước đây không khả thi trên phiên bản 4.6.

Bảng điểm thắng/thua

Được nhóm theo lĩnh vực năng lực. An ninh mạng được nêu riêng vì đây là sự không cải tiến có chủ đích chứ không phải là sự thụt lùi.

(Bản dịch ảnh tự động, Tầm nhìn ở đây là Thị giác máy tính, tức là độ hiểu chi tiết hơn)

Điều gì thực sự đã thay đổi?

Các chỉ số chuẩn là điểm số; hành vi mới là câu chuyện. Bốn thay đổi trong hoạt động khiến Opus 4.7 mang lại cảm giác khác biệt trong thực tế, ngay cả với những câu hỏi mà sự chênh lệch giữa các chỉ số chuẩn là nhỏ.

Tự xác minh trước khi báo cáo

Mô tả của Anthropic: Opus 4.7 "đề ra các phương pháp để xác minh đầu ra của chính nó trước khi báo cáo lại." Trên thực tế, điều này có nghĩa là mô hình viết các bài kiểm tra, chạy các kiểm tra tính hợp lệ và kiểm tra đầu ra của chính nó trước khi tuyên bố một nhiệm vụ hoàn thành. Vercel báo cáo rằng 4.7 "thực hiện chứng minh trên mã hệ thống trước khi bắt đầu công việc" - hành vi không thấy ở 4.6. Trong các lần chạy dài với tác nhân, đây là thay đổi duy nhất mà hầu hết người dùng báo cáo cảm nhận được đầu tiên: ít báo cáo tự tin nhưng sai hơn.

Hướng dẫn theo nghĩa đen

Opus 4.7 tuân thủ hướng dẫn một cách chính xác hơn so với 4.6 hoặc bất kỳ mô hình Claude nào trước đó. Anthropic đã nêu rõ điều này như một vấn đề cần quan tâm khi chuyển đổi: các lời nhắc phụ thuộc vào cách hiểu lỏng lẻo giờ đây có thể tạo ra kết quả không mong muốn vì 4.7 hiểu theo nghĩa đen. Lỗi phổ biến nhất là các danh sách gạch đầu dòng "gợi ý" mà 4.6 coi là gợi ý tùy chọn lại được hiểu là yêu cầu bắt buộc trong 4.7. Hãy kiểm tra các lời nhắc của hệ thống trước khi triển khai.

Khả năng xử lý hình ảnh đầu vào của AI tốt hơn

Hình ảnh có độ phân giải lên đến 2.576 pixel ở cạnh dài (~3,75 MP) - so với ~1.568 pixel (~1,15 MP) trên phiên bản 4.6. Diện tích pixel trên mỗi hình ảnh lớn hơn 3,3 lần, được áp dụng tự động thông qua API xử lý hình ảnh. Hai hệ quả thực tiễn: các tác nhân sử dụng máy tính có thể đọc ảnh chụp màn hình dày đặc mà không cần người vận hành cắt xén trước, và việc trích xuất dữ liệu từ các sơ đồ phức tạp tăng mạnh (xem sự khác biệt +13,4pp CharXiv-R không cần công cụ).

Bộ nhớ hệ thống tập tin dành cho công việc đa phiên

Opus 4.7 hoạt động tốt hơn trong việc đọc, ghi và tái sử dụng ghi chú trên hệ thống tệp tin bền vững giữa các phiên làm việc. Đối với các tác vụ kéo dài nhiều ngày thay vì vài phút - ví dụ như một nhiệm vụ kỹ thuật dài hơi trải qua nhiều lượt xử lý mô hình trong nhiều phiên - điều này giúp loại bỏ nhu cầu thiết lập lại ngữ cảnh ở đầu mỗi lần chạy.

Mức độ nỗ lực cao mới

xhigh là một cấp độ mới nằm giữa high và max. Nó cho phép các nhà phát triển kiểm soát tốt hơn sự đánh đổi giữa khả năng xử lý và độ trễ: khả năng xử lý tốt hơn high, mà không phải chịu toàn bộ chi phí của max. Claude Code đã nâng mức nỗ lực mặc định lên xhigh cho tất cả các gói trong bản phát hành 4.7.

Chi phí: Cùng mức giá, nhưng số lượng token ít hơn.

Giá tính theo mỗi token là như nhau. Chi phí thực tế phụ thuộc vào từng tác vụ: Thử nghiệm sớm của Hex cho thấy Opus 4.7 với mức độ nỗ lực thấp có chất lượng tương đương với Opus 4.6 với mức độ nỗ lực trung bình, do đó cùng một khối lượng công việc hoàn thành sẽ sử dụng ít token hơn đáng kể ở mức độ nỗ lực thấp hơn. Đánh giá mã hóa nội bộ của Anthropic cũng báo cáo rằng mức sử dụng token cho mỗi tác vụ hoàn thành được cải thiện ở mọi mức độ nỗ lực - độ chính xác tăng nhanh hơn mức tiêu hao token.

Cần phải tính toán đến hai áp lực bù trừ lẫn nhau. Bộ mã hóa được cập nhật có thể ánh xạ cùng một văn bản thành số lượng token nhiều hơn từ 1,0 đến 1,35 lần so với phiên bản 4.6, vì vậy ngân sách token tĩnh được xây dựng trên phiên bản 4.6 cần được đánh giá lại. Và ở mức độ nỗ lực cao hơn, phiên bản 4.7 xử lý nhiều hơn phiên bản 4.6 - số lượng token đầu ra có thể tăng lên trong các lượt xử lý nặng về suy luận ngay cả khi bản thân nhiệm vụ là giống nhau. Nhìn chung, những ảnh hưởng này nhỏ hơn so với lợi ích về chất lượng trên mỗi mức độ nỗ lực, nhưng bất kỳ khối lượng công việc riêng lẻ nào cũng cần được đánh giá trước khi áp dụng trên quy mô lớn.

Di cư: 4.6 → 4.7

Opus 4.7 tương thích API với 4.6. Thay đổi bề ngoài là ID mô hình ( claude-opus-4-6→ claude-opus-4-7). Mọi thứ khác là bài tập đánh giá, không phải thay đổi mã.

Danh sách kiểm tra

Hệ thống kiểm toán nhắc nhở về rủi ro hướng dẫn theo nghĩa đen. Hãy tìm kiếm các cụm từ như "xem xét," "bạn có thể," và các danh sách gạch đầu dòng "đề xuất." Phiên bản 4.7 diễn giải những điều này gần với các yêu cầu bắt buộc hơn so với phiên bản 4.6.
Đánh giá lại ngân sách token dựa trên lưu lượng truy cập thực tế. Việc thay đổi bộ mã hóa token có thể làm thay đổi cùng một đoạn văn bản lên đến 35%. Các dự báo chi phí tĩnh được xây dựng trên phiên bản 4.6 sẽ bị sai lệch; ngân sách động được đo lường tức thời sẽ không bị ảnh hưởng.
Hãy lựa chọn mức độ nỗ lực một cách có chủ đích. Đối với các trường hợp sử dụng lập trình và tác nhân, hãy bắt đầu với mức cao hoặc rất cao. Đối với phân loại hoặc tóm tắt đơn giản, mức thấp trên thang điểm 4.7 thường tương đương với mức trung bình trên thang điểm 4.6 với chi phí thấp hơn.
Hãy bật tính năng phân bổ ngân sách nhiệm vụ nếu bạn đang sử dụng các tác nhân. Kết hợp với tính năng này , ngân sách cho phép bạn nói "hãy suy nghĩ kỹ về việc này, nhưng đừng tiêu tốn quá N token để hoàn thành nó." Điều này giúp ngăn chặn các nhánh đa tác nhân phát sinh quá mức. xhigh
Chỉ giảm độ phân giải hình ảnh khi cần thiết. Opus 4.7 tự động xử lý hình ảnh có độ phân giải cao hơn, điều này tốn nhiều token hơn cho mỗi hình ảnh. Các tác vụ không cần chi tiết bổ sung nên giảm độ phân giải ở phía máy khách trước khi gửi.
Chạy một lượt đánh giá. Đặc biệt là đối với kiểu duyệt web BrowseComp dưới một hệ thống đa tác nhân cụ thể, nơi phiên bản 4.7 có thể gặp sự cố. Một thử nghiệm A/B nhanh trên một tập dữ liệu được giữ lại sẽ giúp phát hiện những lỗi này trước khi đưa vào sản xuất.
Nếu phù hợp, hãy đăng ký Chương trình Xác minh An ninh mạng. Các hoạt động an ninh mạng tấn công hợp pháp (nghiên cứu lỗ hổng, kiểm thử xâm nhập, tấn công mô phỏng) trên phiên bản 4.7 yêu cầu chương trình mới này để tránh bị từ chối mặc định. Không cần thiết đối với các tác vụ phòng thủ hoặc mục đích chung.

Khi nào nên nâng cấp, khi nào nên giữ nguyên?

Khối lượng công việc của bạn	Sự giới thiệu
Mã hóa tác nhân (Mã Claude, Cursor, kiểu Devin)	Nâng cấp. Những cải tiến lớn nhất: SWE-bench Pro +10,9pp, MCP-Atlas +14,6pp, tính năng tự xác minh giúp giảm lỗi báo cáo trùng lặp.
Phân tích tài liệu, biểu đồ, ảnh chụp màn hình chi tiết.	Nâng cấp. CharXiv-R +13.4pp không cần công cụ; độ phân giải hình ảnh 3.3× giúp bỏ chặn các nội dung đã bị cắt trước đó.
Các tác nhân sử dụng máy tính / trình duyệt	Nâng cấp với quyền dùng thử. OSWorld +5.3pp cho kết quả tốt, nhưng BrowseComp −4.7pp chỉ ra các lỗi hồi quy nhạy cảm với công nghệ kiểm thử. Hãy thử nghiệm A/B trên các luồng thực tế của bạn trước.
Lý luận, kiến thức, toán học	Nâng cấp. GPQA +2,9pp, HLE không dùng công cụ +6,9pp. Hiệu quả ở mức trung bình trên MMMLU (+0,4pp) nhưng không bao giờ tệ hơn.
Quy trình làm việc tự động tầm nhìn dài hạn	Nâng cấp. Bộ nhớ hệ thống tập tin + tự xác minh là những lợi ích vận hành lớn nhất; các đối tác báo cáo "thời gian hoạt động tự động lâu hơn" là thay đổi hành vi hàng đầu.
Nghiên cứu an ninh tấn công	Đăng ký tham gia Chương trình Xác minh An ninh mạng. Mặc định phiên bản 4.7 sẽ từ chối thêm thông tin ở đây; chương trình đã được xác minh này tồn tại để phục vụ mục đích kiểm thử xâm nhập hợp pháp.
Các đường dẫn ngân sách token cố định	Trước tiên hãy đo lường lại. Việc thay đổi bộ mã hóa có thể làm thay đổi chi tiêu lên đến 35%. Hoặc là giới hạn lại ngân sách hoặc chuyển sang đo lường động trước khi nâng cấp.
Các gợi ý dựa trên sự diễn giải lỏng lẻo.	Trước tiên hãy kiểm tra lại. Phiên bản 4.7 đọc hướng dẫn theo nghĩa đen hơn. Điều chỉnh lại hoặc giữ nguyên phiên bản 4.6 cho đến khi các lời nhắc được xem xét lại.

Nguồn: LLM Stat. #Opus47

Có thể bạn quan tâm

Chủ đề hot