Không phải tưởng tượng: Claude Code thực sự "ngu đi" suốt 2 tháng qua, Anthropic phải xin lỗi

Hư Trúc
Hư Trúc
Phản hồi: 0

Hư Trúc

Writer
Vào ngày 23/4, Anthropic đã chính thức thừa nhận các lỗi kỹ thuật gây ảnh hưởng nghiêm trọng đến hiệu năng Claude Code trong giai đoạn từ đầu tháng 3 đến ngày 20/4/2024. Sau một thời gian dài phủ nhận các phản hồi từ cộng đồng lập trình viên, hãng đã xác nhận rằng sự kết hợp của ba thay đổi cấu hình và lỗi phần mềm đã khiến công cụ AI này trở nên kém thông minh, hay quên và xử lý tác vụ thiếu nhất quán. Sự cố này không chỉ làm giảm chất lượng đầu ra mà còn gây lãng phí tài nguyên của người dùng, buộc Anthropic phải đưa ra các biện pháp khắc phục và cam kết minh bạch hơn trong tương lai.

1777079599184.png

Ba nguyên nhân kỹ thuật gây suy giảm hiệu năng Claude Code​

Theo kết quả điều tra nội bộ của Anthropic, tình trạng suy giảm hiệu năng Claude Code không phải do hãng cố tình hạ cấp mô hình mà xuất phát từ ba thay đổi kỹ thuật chồng chéo. Thay đổi đầu tiên diễn ra vào ngày 4/3, khi Anthropic hạ mức nỗ lực suy luận (reasoning effort) mặc định từ 'high' xuống 'medium'. Quyết định này ban đầu nhằm khắc phục tình trạng giao diện bị đứng hình do mô hình suy nghĩ quá lâu, nhưng lại khiến cộng đồng lập trình viên nhận thấy Claude Code kém thông minh rõ rệt. Phải đến ngày 7/4, thay đổi này mới được hoàn tác và nâng lên mức 'xhigh' cho Opus 4.7.

Vấn đề thứ hai phát sinh vào ngày 26/3 do một lỗi cài đặt trong bản cập nhật tối ưu hóa bộ nhớ đệm. Thay vì chỉ xóa lịch sử suy luận của các phiên làm việc đã dừng hơn một tiếng, đoạn code lỗi đã xóa dữ liệu này sau mỗi lượt hội thoại. Hệ quả là Claude Code liên tục quên bối cảnh của các thao tác trước đó, dẫn đến việc lặp lại thao tác và xử lý sai các tác vụ phức tạp. Lỗi này cũng khiến bộ nhớ đệm bị bỏ qua, đẩy chi phí token lên cao bất thường và làm cạn kiệt giới hạn sử dụng của người dùng nhanh hơn dự kiến. Anthropic đã sửa lỗi này vào ngày 10/4.

Thay đổi thứ ba diễn ra vào ngày 16/4, khi Anthropic thêm giới hạn độ dài phản hồi vào system prompt nhằm kiềm chế sự dài dòng của Opus 4.7. Tuy nhiên, các bài đánh giá sâu hơn cho thấy chất lượng lập trình đã giảm 3% trên cả hai phiên bản Opus 4.6 và 4.7 do giới hạn không quá 25 từ giữa các lần gọi công cụ và 100 từ cho câu trả lời cuối cùng. Đoạn lệnh này đã bị gỡ bỏ hoàn toàn vào ngày 20/4.

Báo cáo chi tiết về sự sụt giảm năng lực suy luận của Claude​

1777079607970.png

Mặc dù người dùng đã phát hiện vấn đề từ sớm, Anthropic ban đầu vẫn khẳng định mô hình hoạt động bình thường và cho rằng các phàn nàn chỉ liên quan đến thay đổi giao diện. Bước ngoặt chỉ đến khi Stella Laurenzo, Giám đốc cấp cao nhóm AI tại AMD, công bố một phân tích chi tiết vào ngày 2/4 dựa trên dữ liệu khổng lồ gồm 6.852 phiên làm việc, 17.871 khối suy luận và 234.760 lượt gọi công cụ. Kết luận cho thấy hiệu năng Claude Code đã không còn đủ tin cậy cho các tác vụ kỹ thuật phức tạp.

Dữ liệu từ báo cáo chỉ ra độ sâu suy luận trung bình của mô hình đã giảm mạnh từ 2.200 ký tự vào tháng 1 xuống còn 600 ký tự vào tháng 3, tương đương mức giảm 73%. Tỷ lệ số file được đọc trước khi chỉnh sửa cũng giảm từ 6,6 xuống còn 2,0, cho thấy mô hình chuyển sang phong cách 'sửa luôn mà không cần hiểu bối cảnh'. Đặc biệt, một đoạn hook tự động dùng để phát hiện hành vi bỏ dở công việc hoặc né tránh trách nhiệm đã kích hoạt tới 173 lần chỉ trong 17 ngày sau ngày 8/3, trong khi trước đó chưa từng kích hoạt lần nào. Stella Laurenzo cảnh báo rằng Anthropic không còn giữ vị thế độc tôn ở tầng năng lực suy luận mà Opus từng chiếm giữ.

Phản hồi và cam kết cải thiện từ phía Anthropic​

Tính đến ngày 23/4, Anthropic đã thực hiện reset giới hạn sử dụng cho toàn bộ người dùng để bù đắp cho lượng token bị tiêu tốn thừa do các lỗi kỹ thuật nêu trên. Để ngăn chặn các sự cố tương tự trong tương lai, hãng cam kết bắt buộc nhiều nhân viên nội bộ phải sử dụng đúng bản public build của Claude Code thay vì các bản thử nghiệm nội bộ. Điều này giúp đội ngũ phát triển sớm nhận diện được các vấn đề mà người dùng thực tế đang gặp phải.

Ngoài ra, Anthropic sẽ thắt chặt quy trình kiểm tra trước mỗi thay đổi đối với system prompt và mở tài khoản @ClaudeDevs trên mạng xã hội X để thông báo minh bạch hơn về các quyết định sản phẩm. Sự cố này đã phơi bày một vấn đề mang tính cấu trúc: các thay đổi ở tầng cấu hình bao quanh mô hình như mức độ suy luận, quản lý bộ nhớ đệm hay giới hạn độ dài phản hồi có thể tác động đến trải nghiệm người dùng mạnh mẽ không kém gì việc thay đổi trọng số của chính mô hình AI đó.

Kết luận​

Việc Anthropic thừa nhận lỗi kỹ thuật làm suy giảm hiệu năng Claude Code là một bước đi cần thiết để lấy lại niềm tin từ cộng đồng lập trình viên. Dù các lỗi đã được khắc phục và người dùng đã được bù đắp, sự cố này là lời nhắc nhở về tầm quan trọng của việc kiểm soát cấu hình và tính minh bạch trong quá trình phát triển các công cụ hỗ trợ lập trình bằng trí tuệ nhân tạo.

FAQ​

Tại sao hiệu năng Claude Code lại bị sụt giảm trong thời gian qua?​

Hiệu năng sụt giảm do ba nguyên nhân chính: hạ mức nỗ lực suy luận mặc định, lỗi cài đặt bộ nhớ đệm khiến mô hình 'mất trí nhớ' sau mỗi lượt hội thoại, và giới hạn độ dài phản hồi trong system prompt làm giảm chất lượng lập trình.

Lỗi bộ nhớ đệm của Claude Code đã gây ra hậu quả gì?​

Lỗi này khiến mô hình liên tục quên bối cảnh các thao tác trước đó, dẫn đến việc lặp lại sai lầm, xử lý thiếu nhất quán và làm tăng chi phí token cũng như nhanh chóng làm cạn kiệt giới hạn sử dụng của người dùng.

Anthropic đã làm gì để bù đắp cho người dùng bị ảnh hưởng?​

Anthropic đã thực hiện reset giới hạn sử dụng cho toàn bộ người dùng để bù đắp cho lượng token bị lãng phí do các lỗi kỹ thuật gây ra trong giai đoạn từ tháng 3 đến tháng 4/2024.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9raG9uZy1waGFpLXR1b25nLXR1b25nLWNsYXVkZS1jb2RlLXRodWMtc3Utbmd1LWRpLXN1b3QtMi10aGFuZy1xdWEtYW50aHJvcGljLXBoYWkteGluLWxvaS44MjI0NS8=
Top