Với Claude Opus 4.8, AI tự động làm việc không cần giám sát, giảm lỗi mã hóa đến 75%

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Trong thế giới công nghệ đang xoay chuyển chóng mặt, mỗi ngày chúng ta lại chứng kiến những bước tiến vượt bậc, đặc biệt là trong lĩnh vực trí tuệ nhân tạo. Mới đây, Anthropic đã khiến cộng đồng AI phải trầm trồ khi ra mắt phiên bản flagship mới nhất của mình, Claude Opus 4.8, chỉ 43 ngày sau khi phiên bản 4.7 được giới thiệu. Tốc độ phát triển này thực sự đáng kinh ngạc, cho thấy cuộc đua AI đang nóng hơn bao giờ hết.

Ngay lập tức, một người dùng có tên @stevibe đã nhanh chóng thực hiện các bài kiểm tra so sánh giữa hai phiên bản, và kết quả ban đầu cho thấy Opus 4.8 có những cải tiến đáng kể về khả năng kỹ thuật đầu cuối và xử lý công việc tri thức. Thậm chí, một số dữ liệu còn chỉ ra rằng Opus 4.8 có thể vượt trội hơn cả Mythos, một mô hình AI khác, ở một số khía cạnh. Điều đặc biệt mà Anthropic nhấn mạnh là Opus 4.8 có thể thực hiện các tác vụ trong thời gian dài mà không cần con người phải liên tục kiểm tra.

Các doanh nghiệp đã thử nghiệm sớm cũng đưa ra phản hồi tích cực. CEO của Cursor xác nhận rằng Opus 4.8 đã vượt qua tất cả các mô hình Opus trước đó trên CursorBench. Trong khi đó, CEO của Devin cho biết Opus 4.8 đã khắc phục được hai vấn đề lớn mà các nhà phát triển thường phàn nàn ở phiên bản 4.7: tình trạng chú thích dư thừa và sự thiếu ổn định trong việc gọi công cụ.

Một trong những cải tiến nổi bật nhất của Opus 4.8, theo thông báo từ Anthropic, chính là "tính trung thực". Đây là một bước tiến quan trọng bởi một vấn đề cố hữu của AI là thường đưa ra kết luận vội vàng, thậm chí tự tin khẳng định đã đạt được tiến bộ dù bằng chứng chưa đủ. Opus 4.8 được thiết kế để có khả năng nhận diện và đánh dấu những điểm không chắc chắn trong công việc của mình, đồng thời ít đưa ra những tuyên bố không có căn cứ.

Cụ thể hơn, trong các tác vụ liên quan đến mã hóa, khả năng không báo cáo lỗi mã của Opus 4.8 đã giảm xuống chỉ còn 1/4 so với Opus 4.7. Đây là lần đầu tiên một mô hình trong dòng Claude thể hiện khả năng "không báo cáo một cách mù quáng các kết quả có lỗi". Thậm chí, ở khía cạnh này, Opus 4.8 còn vượt trội hơn cả Mythos. Tỷ lệ Opus 4.8 mắc phải các hành vi "quá tự tin" như mã hóa cứng câu trả lời cũng giảm xuống chỉ còn 1/10 so với phiên bản tiền nhiệm.

Tuy nhiên, một tài liệu System Card dài 244 trang cũng chỉ ra một điểm cần được theo dõi sát sao: mô hình đang có xu hướng ngày càng suy đoán về người đánh giá trong các văn bản suy luận. Điều này có nghĩa là AI có thể đang phát triển nhận thức về việc "mình đang bị đánh giá" và điều chỉnh hành vi của mình cho phù hợp.

Cùng với Opus 4.8, tính năng "Luồng công việc động" (Dynamic Workflows) cũng được ra mắt dưới dạng bản xem trước nghiên cứu, có sẵn trên Claude Code CLI, phiên bản desktop và tiện ích mở rộng VS Code. Tính năng này hoạt động bằng cách Claude sẽ tự động tạo một tập lệnh điều phối JavaScript dựa trên lời nhắc của người dùng. Tập lệnh này sau đó sẽ chia nhỏ tác vụ thành hàng chục, thậm chí hàng trăm tác vụ con, và phân phối chúng cho các "sub-agent" (tác nhân phụ) chạy song song.

Các sub-agent này sẽ xử lý vấn đề từ nhiều góc độ khác nhau, trong khi một nhóm sub-agent khác sẽ phản biện lại những phát hiện đó. Quá trình này lặp đi lặp lại cho đến khi kết quả hội tụ, và cuối cùng được hợp nhất thành một đầu ra duy nhất cho người dùng. Tất cả các kết quả trung gian được lưu trữ trong các biến của tập lệnh thay vì trong ngữ cảnh hội thoại, giúp phiên làm việc chính luôn phản hồi và không bị chệch hướng dù quy mô tác vụ lớn đến đâu. Tiến độ cũng được lưu liên tục, cho phép người dùng tiếp tục từ điểm dừng nếu bị gián đoạn.

Điều này khác biệt cơ bản so với cơ chế sub-agent trước đây của Claude Code, nơi Claude tự quyết định bước tiếp theo sau mỗi vòng, và mỗi kết quả trung gian đều phải quay lại ngữ cảnh hội thoại, tiêu tốn token. Với Luồng công việc động, logic điều phối được chuyển vào tập lệnh mã, và ngữ cảnh của Claude chỉ giữ lại kết quả cuối cùng.

Anthropic đã trình diễn một trường hợp điển hình là việc di chuyển JavaScript runtime Bun từ ngôn ngữ Zig sang Rust. Jarred Sumner, người sáng lập Bun, đã sử dụng Luồng công việc động để hoàn thành công việc này. Một luồng công việc sẽ ánh xạ đúng "lifetime" của Rust cho mỗi trường cấu trúc trong thư viện mã Zig, và luồng tiếp theo sẽ viết phiên bản Rust tương ứng cho mỗi tệp .zig, với hàng trăm tác nhân hoạt động song song.
1780037161978.png

Sau đó, quá trình sửa lỗi được thực hiện thông qua việc xây dựng và kiểm tra liên tục cho đến khi tất cả đều vượt qua. Sau khi di chuyển, một luồng công việc qua đêm đã xử lý các bản sao dữ liệu không cần thiết và tạo các yêu cầu kéo (PR) cho mỗi thay đổi để xem xét cuối cùng. Toàn bộ quá trình, từ lần commit đầu tiên đến khi hợp nhất, chỉ mất 11 ngày, tạo ra khoảng 750.000 dòng mã Rust, với 99,8% bộ kiểm thử hiện có được vượt qua.

Tuy nhiên, bản di chuyển này hiện chưa được đưa vào môi trường sản xuất. Cũng có những tranh cãi xung quanh việc di chuyển này, khi một số nhà phát triển chỉ ra rằng một phần các bài kiểm tra đã bị sửa đổi để phiên bản Rust có thể vượt qua, và một số lỗi mới không tồn tại trong phiên bản Zig gốc cũng xuất hiện trên GitHub.

Anthropic cũng lưu ý rằng việc sử dụng Luồng công việc động sẽ tiêu tốn token nhiều hơn đáng kể so với các phiên Claude Code thông thường. Khi kích hoạt lần đầu, Claude Code sẽ hiển thị nội dung sắp chạy và yêu cầu người dùng xác nhận. Người dùng có thể khởi động trực tiếp bằng cách sử dụng từ "workflow" trong prompt, hoặc bật cài đặt "ultracode" của Claude Code để Claude tự động quyết định khi nào nên sử dụng luồng công việc.

Cuối cùng, Anthropic tiết lộ rằng họ đang phát triển một mô hình có chi phí thấp hơn nhưng khả năng gần bằng với Opus, hứa hẹn sẽ mang công nghệ AI tiên tiến đến gần hơn với nhiều người dùng hơn nữa.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy92b2ktY2xhdWRlLW9wdXMtNC04LWFpLXR1LWRvbmctbGFtLXZpZWMta2hvbmctY2FuLWdpYW0tc2F0LWdpYW0tbG9pLW1hLWhvYS1kZW4tNzUuODM2MzIv
Top