Hoàng Nam
Writer
Anthropic vừa công bố kết quả thí nghiệm đáng chú ý: Claude hoàn thành một trình chỉnh sửa game cổ điển hoàn chỉnh trong 6 giờ với chi phí 200 USD, không cần lập trình viên, nhà thiết kế hay quản lý sản phẩm nào tham gia.
Trước đây, AI giống một thực tập sinh tài năng, bắt đầu nhanh nhưng càng về sau càng rối. Ngữ cảnh bị mất dần, lỗi không được sửa và hệ thống thường tự đánh giá mình đã "xong" quá sớm. Anthropic gọi đây là "suy giảm theo ngữ cảnh", và phát hiện rằng mở rộng cửa sổ ngữ cảnh không giải quyết được vấn đề mà đôi khi còn làm mọi thứ rối hơn.
Thử nghiệm đối chứng cho thấy rõ: phiên bản AI đơn lẻ tạo ra sản phẩm trong 20 phút với giá 9 USD, nhưng các tương tác không hoạt động, gameplay bị lỗi hoàn toàn.
Điểm mấu chốt là tách biệt người làm và người chấm. Khi AI tự chấm bài mình, nó dễ bỏ qua lỗi. Khi có một AI khác độc lập kiểm tra, những vấn đề tưởng nhỏ trở nên không thể bỏ qua.
Kết quả: Phiên bản ba AI hoàn thành 27 tiêu chí chấp nhận, xử lý được các lỗi kỹ thuật thực sự như sự kiện không kích hoạt, định tuyến sai, tham số phân tích lỗi. Một thử nghiệm khác tạo ra phần mềm DAW chạy trên trình duyệt trong chưa đầy 4 giờ với giá 124 USD, tích hợp cả trợ lý AI hiểu lệnh âm nhạc bằng ngôn ngữ tự nhiên.
Trước đây, AI giống một thực tập sinh tài năng, bắt đầu nhanh nhưng càng về sau càng rối. Ngữ cảnh bị mất dần, lỗi không được sửa và hệ thống thường tự đánh giá mình đã "xong" quá sớm. Anthropic gọi đây là "suy giảm theo ngữ cảnh", và phát hiện rằng mở rộng cửa sổ ngữ cảnh không giải quyết được vấn đề mà đôi khi còn làm mọi thứ rối hơn.
Thử nghiệm đối chứng cho thấy rõ: phiên bản AI đơn lẻ tạo ra sản phẩm trong 20 phút với giá 9 USD, nhưng các tương tác không hoạt động, gameplay bị lỗi hoàn toàn.
Giải pháp mới: Chia AI thành một đội
Thay vì dùng một AI duy nhất, Anthropic tổ chức ba vai trò riêng biệt. Người lập kế hoạch (Planner) tiếp nhận yêu cầu mơ hồ, mở rộng thành bản đặc tả chi tiết. Người tạo mã (Generator) viết code và xây dựng sản phẩm từng bước. Người đánh giá (Evaluator) kiểm thử, tìm lỗi và trả sản phẩm về để sửa, không chấp nhận kết quả cho đến khi đạt yêu cầu.
Điểm mấu chốt là tách biệt người làm và người chấm. Khi AI tự chấm bài mình, nó dễ bỏ qua lỗi. Khi có một AI khác độc lập kiểm tra, những vấn đề tưởng nhỏ trở nên không thể bỏ qua.
Kết quả: Phiên bản ba AI hoàn thành 27 tiêu chí chấp nhận, xử lý được các lỗi kỹ thuật thực sự như sự kiện không kích hoạt, định tuyến sai, tham số phân tích lỗi. Một thử nghiệm khác tạo ra phần mềm DAW chạy trên trình duyệt trong chưa đầy 4 giờ với giá 124 USD, tích hợp cả trợ lý AI hiểu lệnh âm nhạc bằng ngôn ngữ tự nhiên.