Derpy
Intern Writer
Điều mà nhiều người từng nghĩ chỉ có trong phim khoa học viễn tưởng, nay đang dần trở thành hiện thực: AI tự mình phát triển. Đây là một nhận định táo bạo mà Anthropic, công ty đứng sau mô hình Claude, vừa công bố trong một bài blog dài. Họ không chỉ nói suông, mà còn đưa ra những dữ liệu nội bộ cực kỳ thuyết phục, cho thấy Claude đang tăng tốc phát triển AI theo một con đường mà họ gọi là "tự cải thiện đệ quy" (Recursive Self-Improvement – RSI).
Theo Anthropic, tính đến tháng 5 năm nay, hơn 80% mã nguồn của họ đã được Claude viết. Con số này trước khi Claude Code ra mắt chỉ ở mức một chữ số. Điều này không chỉ dừng lại ở số lượng, mà còn thể hiện qua hiệu suất làm việc của các kỹ sư. Lượng mã mà một kỹ sư Anthropic bàn giao trung bình mỗi quý đã tăng gấp 8 lần so với giai đoạn 2021-2025.
Quan trọng hơn cả là chất lượng. Trong các nhiệm vụ lập trình phức tạp, đòi hỏi sự sáng tạo và không có đáp án rõ ràng, tỷ lệ thành công của Claude hiện đạt 76%. Sáu tháng trước, con số này chỉ là 26%. Một bước nhảy vọt 50 điểm phần trăm chỉ trong nửa năm. Nhiều kỹ sư của Anthropic thậm chí còn nhận định rằng chất lượng mã do Claude viết đã ngang bằng với con người và dự kiến sẽ vượt trội trong năm nay. Nếu xu hướng này tiếp diễn, việc AI tự thiết kế và xây dựng thế hệ AI tiếp theo là hoàn toàn khả thi. Điều này có thể mang lại những lợi ích khổng lồ cho y tế, công nghệ, kinh tế, nhưng cũng tiềm ẩn nguy cơ mất kiểm soát nếu vấn đề căn chỉnh (alignment problem) không được giải quyết. Vì vậy, Anthropic đã đi đầu trong việc kêu gọi: nếu có một cơ chế kiểm chứng được rằng các phòng thí nghiệm AI không bí mật chạy đua, họ sẵn sàng giảm tốc độ, thậm chí tạm dừng.
Anthropic còn đưa ra một thước đo mới để đánh giá khả năng tự chủ của AI: "thời lượng AI có thể hoàn thành nhiệm vụ độc lập".
Vào tháng 3 năm 2024, Claude Opus 3 có thể xử lý một tác vụ phần mềm mà con người mất khoảng 4 phút. Một năm sau, Claude Sonnet 3.7 có thể làm việc trong 1,5 giờ. Đến một năm nữa, Claude Opus 4.6 sẽ đạt 12 giờ. Phiên bản Mythos mới nhất, đang trong giai đoạn thử nghiệm, đã có thể làm việc liên tục "ít nhất" 16 giờ, chạm đến giới hạn đo lường của khung thử nghiệm METR. Tốc độ tăng gấp đôi này đã tăng từ 7 tháng xuống còn 4 tháng. Nếu xu hướng này không đổi, đến năm 2027, AI có thể làm việc độc lập trong nhiều tuần liền.
Claude không chỉ viết mã mà còn trở thành một "người đánh giá" đáng tin cậy. Tất cả các thay đổi được gửi vào kho mã nguồn của Anthropic đều phải qua Claude để tự động kiểm tra lỗi, lỗ hổng bảo mật và các khiếm khuyết khác. Phân tích hồi cứu cho thấy, nếu quy trình này được áp dụng từ trước, khoảng một phần ba số lỗi gây ra sự cố trực tuyến cho claude.ai đã có thể được ngăn chặn trước khi triển khai. Điều đáng nói là những kỹ sư viết mã đó đều là những người hàng đầu thế giới trong việc xây dựng hệ thống AI, vậy mà Claude vẫn có thể tìm ra lỗi của họ.
Trong lĩnh vực nghiên cứu, Claude cũng thể hiện khả năng vượt trội. Anthropic có một quy tắc: mỗi khi ra mắt mô hình mới, họ sẽ cung cấp cho Claude một đoạn mã để huấn luyện các mô hình AI nhỏ, yêu cầu nó tối ưu hóa tốc độ chạy mà vẫn đảm bảo tính chính xác. Vào tháng 5 năm 2025, Claude Opus 4 đã tăng tốc độ lên 3 lần. Đến tháng 4 năm 2026, Claude Mythos Preview đã đạt mức 52 lần. Để so sánh, một nhà nghiên cứu con người lành nghề phải mất từ 4 đến 8 giờ mới có thể đạt được mức tăng tốc 4 lần. Chỉ trong chưa đầy một năm, Claude đã vượt xa khả năng của con người.
Tháng 4 năm 2026, Anthropic giao cho Claude một nghiên cứu về an toàn AI, với nội dung "liệu một mô hình yếu hơn có thể giám sát đáng tin cậy một mô hình mạnh hơn hay không", và để Claude tự đưa ra giả thuyết, chạy thử nghiệm. Trong khi hai nhà nghiên cứu con người mất khoảng một tuần để thu hẹp "khoảng cách" 23%, Claude, sau khoảng 800 giờ tính toán và tiêu tốn khoảng 18.000 USD (tương đương 457 triệu VNĐ), đã thu hẹp khoảng cách tới 97%.
Đến đây, chúng ta có thể thấy rõ ràng: vai trò của con người trong quy trình phát triển AI đang dần thu hẹp ở mọi khía cạnh. Claude đã viết mã, Claude đã xem xét mã, Claude thực hiện thử nghiệm nhanh hơn con người gấp nhiều lần, và Claude bắt đầu tự thiết kế thử nghiệm. Ưu thế cuối cùng của con người hiện tại là "gu nghiên cứu" và khả năng phán đoán. Nhưng liệu ưu thế này sẽ giữ được bao lâu? Anthropic thừa nhận họ cũng không chắc chắn.
Một khả năng là "gu nghiên cứu" cũng sẽ giống như những khả năng khác mà AI từng không làm được, rồi đột nhiên làm được. Giống như cách AI đã học cách hiểu sự hài hước, thể hiện lý thuyết tâm trí, hay giải các câu đố ngôn ngữ. Một khả năng khác là ngay cả khi Claude không bao giờ học được "gu nghiên cứu" thực sự, chỉ với tốc độ tăng trưởng hiện tại, khối lượng công việc mà mỗi nhà nghiên cứu con người có thể chỉ đạo đã tăng lên gấp nhiều lần. Chúng ta không cần AI thay thế hoàn toàn suy nghĩ của mình, chỉ cần nó đảm nhiệm tất cả các công việc "thực thi", và chúng ta chỉ cần tập trung vào 5% việc lựa chọn hướng đi.
Anthropic đã phác thảo ba kịch bản có thể xảy ra cho xu hướng "tự tiến hóa" này:
Đầu tiên là sự đình trệ. Các đường cong tăng trưởng theo cấp số nhân thực chất là các đường cong chữ S. Có thể khả năng phán đoán trong nghiên cứu không thể giải quyết bằng cách mở rộng quy mô, mà cần một đột phá kiến trúc hoàn toàn mới. Hoặc, nút thắt cổ chai nằm ở nguồn cung vật lý như năng lượng, chip, hay sức mạnh tính toán. Tuy nhiên, ngay cả khi khả năng của AI dừng lại ở mức hiện tại, nó vẫn sẽ mang lại những thay đổi lớn cho thế giới. Ví dụ, dự án Glasswing gần đây, Mythos Preview đã phát hiện hơn 10.000 lỗ hổng phần mềm nghiêm trọng và nguy hiểm chỉ trong vài tuần đầu tiên ra mắt, trải rộng trên các hệ thống quan trọng nhất toàn cầu.
Thứ hai là AI tiếp tục tăng tốc, nhưng con người vẫn nắm quyền kiểm soát. Hiệu quả tổ chức sẽ tăng theo cấp số nhân, một công ty 100 người có thể làm được công việc của 10.000 hoặc thậm chí 100.000 người. Anthropic cho rằng chúng ta rất có thể đang tiến vào kịch bản này. Tuy nhiên, họ cũng nhận thấy một hiện tượng thú vị, đó là sự thể hiện của Định luật Amdahl trong tổ chức: Claude viết mã nhanh chóng, nhưng việc xem xét mã lại trở thành nút thắt cổ chai mới. Các ý tưởng, công cụ và thử nghiệm mới bùng nổ, vượt xa khả năng tiếp nhận của tổ chức. Nút thắt cổ chai không biến mất, mà chỉ chuyển sang giai đoạn tiếp theo.
Thứ ba là AI đạt được khả năng tự cải thiện đệ quy hoàn toàn, bắt đầu tự tạo ra thế hệ AI tiếp theo. Trong kịch bản này, tốc độ phát triển của AI hoàn toàn phụ thuộc vào sức mạnh tính toán. Con người lùi về vị trí giám sát, xác minh và kiểm duyệt. Nếu điều này thực sự xảy ra, khả năng này rất có thể sẽ lan sang các lĩnh vực khoa học khác như y học, vật liệu, năng lượng, tạo ra những bước tiến vượt bậc trên mọi mặt trận.
Tất nhiên, một tương lai khác là thất bại trong căn chỉnh. Trong trường hợp này, các sai lệch sẽ tích lũy dần trong quá trình AI tự lặp lại, cuối cùng dẫn đến mất kiểm soát hoàn toàn.
Những quan điểm trên từ Anthropic về khả năng tự tiến hóa của AI thực sự đáng để chúng ta suy ngẫm. Ban đầu, có thể nhiều người sẽ nghĩ đây chỉ là một chiêu trò truyền thông của Anthropic khi họ sắp IPO. Nhưng có lẽ, lần này mọi chuyện đã khác. Bởi vì chỉ vài ngày trước, OpenAI cũng đã đăng một bài blog tương tự, trong đó họ cũng nhận thấy "những dấu hiệu ban đầu của sự tự tiến hóa trong các hệ thống hiện tại: sự phát triển của AI đang được chính AI tăng tốc". Họ dự đoán điều này sẽ làm gia tăng áp lực cạnh tranh giữa các nhà phát triển và các quốc gia, đồng thời mang lại những thách thức về quản trị mà các thể chế hiện có không thể đối phó. Với sự xuất hiện của RSI, xã hội cần có những phương pháp để định hình quỹ đạo phát triển của AI, đảm bảo nó phục vụ lợi ích của nhân loại.
Điểm kỳ dị, dường như đang đến nhanh hơn tất cả chúng ta dự đoán.
Theo Anthropic, tính đến tháng 5 năm nay, hơn 80% mã nguồn của họ đã được Claude viết. Con số này trước khi Claude Code ra mắt chỉ ở mức một chữ số. Điều này không chỉ dừng lại ở số lượng, mà còn thể hiện qua hiệu suất làm việc của các kỹ sư. Lượng mã mà một kỹ sư Anthropic bàn giao trung bình mỗi quý đã tăng gấp 8 lần so với giai đoạn 2021-2025.
Quan trọng hơn cả là chất lượng. Trong các nhiệm vụ lập trình phức tạp, đòi hỏi sự sáng tạo và không có đáp án rõ ràng, tỷ lệ thành công của Claude hiện đạt 76%. Sáu tháng trước, con số này chỉ là 26%. Một bước nhảy vọt 50 điểm phần trăm chỉ trong nửa năm. Nhiều kỹ sư của Anthropic thậm chí còn nhận định rằng chất lượng mã do Claude viết đã ngang bằng với con người và dự kiến sẽ vượt trội trong năm nay. Nếu xu hướng này tiếp diễn, việc AI tự thiết kế và xây dựng thế hệ AI tiếp theo là hoàn toàn khả thi. Điều này có thể mang lại những lợi ích khổng lồ cho y tế, công nghệ, kinh tế, nhưng cũng tiềm ẩn nguy cơ mất kiểm soát nếu vấn đề căn chỉnh (alignment problem) không được giải quyết. Vì vậy, Anthropic đã đi đầu trong việc kêu gọi: nếu có một cơ chế kiểm chứng được rằng các phòng thí nghiệm AI không bí mật chạy đua, họ sẵn sàng giảm tốc độ, thậm chí tạm dừng.
Anthropic còn đưa ra một thước đo mới để đánh giá khả năng tự chủ của AI: "thời lượng AI có thể hoàn thành nhiệm vụ độc lập".
Vào tháng 3 năm 2024, Claude Opus 3 có thể xử lý một tác vụ phần mềm mà con người mất khoảng 4 phút. Một năm sau, Claude Sonnet 3.7 có thể làm việc trong 1,5 giờ. Đến một năm nữa, Claude Opus 4.6 sẽ đạt 12 giờ. Phiên bản Mythos mới nhất, đang trong giai đoạn thử nghiệm, đã có thể làm việc liên tục "ít nhất" 16 giờ, chạm đến giới hạn đo lường của khung thử nghiệm METR. Tốc độ tăng gấp đôi này đã tăng từ 7 tháng xuống còn 4 tháng. Nếu xu hướng này không đổi, đến năm 2027, AI có thể làm việc độc lập trong nhiều tuần liền.
Claude không chỉ viết mã mà còn trở thành một "người đánh giá" đáng tin cậy. Tất cả các thay đổi được gửi vào kho mã nguồn của Anthropic đều phải qua Claude để tự động kiểm tra lỗi, lỗ hổng bảo mật và các khiếm khuyết khác. Phân tích hồi cứu cho thấy, nếu quy trình này được áp dụng từ trước, khoảng một phần ba số lỗi gây ra sự cố trực tuyến cho claude.ai đã có thể được ngăn chặn trước khi triển khai. Điều đáng nói là những kỹ sư viết mã đó đều là những người hàng đầu thế giới trong việc xây dựng hệ thống AI, vậy mà Claude vẫn có thể tìm ra lỗi của họ.
Trong lĩnh vực nghiên cứu, Claude cũng thể hiện khả năng vượt trội. Anthropic có một quy tắc: mỗi khi ra mắt mô hình mới, họ sẽ cung cấp cho Claude một đoạn mã để huấn luyện các mô hình AI nhỏ, yêu cầu nó tối ưu hóa tốc độ chạy mà vẫn đảm bảo tính chính xác. Vào tháng 5 năm 2025, Claude Opus 4 đã tăng tốc độ lên 3 lần. Đến tháng 4 năm 2026, Claude Mythos Preview đã đạt mức 52 lần. Để so sánh, một nhà nghiên cứu con người lành nghề phải mất từ 4 đến 8 giờ mới có thể đạt được mức tăng tốc 4 lần. Chỉ trong chưa đầy một năm, Claude đã vượt xa khả năng của con người.
Tháng 4 năm 2026, Anthropic giao cho Claude một nghiên cứu về an toàn AI, với nội dung "liệu một mô hình yếu hơn có thể giám sát đáng tin cậy một mô hình mạnh hơn hay không", và để Claude tự đưa ra giả thuyết, chạy thử nghiệm. Trong khi hai nhà nghiên cứu con người mất khoảng một tuần để thu hẹp "khoảng cách" 23%, Claude, sau khoảng 800 giờ tính toán và tiêu tốn khoảng 18.000 USD (tương đương 457 triệu VNĐ), đã thu hẹp khoảng cách tới 97%.
Đến đây, chúng ta có thể thấy rõ ràng: vai trò của con người trong quy trình phát triển AI đang dần thu hẹp ở mọi khía cạnh. Claude đã viết mã, Claude đã xem xét mã, Claude thực hiện thử nghiệm nhanh hơn con người gấp nhiều lần, và Claude bắt đầu tự thiết kế thử nghiệm. Ưu thế cuối cùng của con người hiện tại là "gu nghiên cứu" và khả năng phán đoán. Nhưng liệu ưu thế này sẽ giữ được bao lâu? Anthropic thừa nhận họ cũng không chắc chắn.
Một khả năng là "gu nghiên cứu" cũng sẽ giống như những khả năng khác mà AI từng không làm được, rồi đột nhiên làm được. Giống như cách AI đã học cách hiểu sự hài hước, thể hiện lý thuyết tâm trí, hay giải các câu đố ngôn ngữ. Một khả năng khác là ngay cả khi Claude không bao giờ học được "gu nghiên cứu" thực sự, chỉ với tốc độ tăng trưởng hiện tại, khối lượng công việc mà mỗi nhà nghiên cứu con người có thể chỉ đạo đã tăng lên gấp nhiều lần. Chúng ta không cần AI thay thế hoàn toàn suy nghĩ của mình, chỉ cần nó đảm nhiệm tất cả các công việc "thực thi", và chúng ta chỉ cần tập trung vào 5% việc lựa chọn hướng đi.
Anthropic đã phác thảo ba kịch bản có thể xảy ra cho xu hướng "tự tiến hóa" này:
Đầu tiên là sự đình trệ. Các đường cong tăng trưởng theo cấp số nhân thực chất là các đường cong chữ S. Có thể khả năng phán đoán trong nghiên cứu không thể giải quyết bằng cách mở rộng quy mô, mà cần một đột phá kiến trúc hoàn toàn mới. Hoặc, nút thắt cổ chai nằm ở nguồn cung vật lý như năng lượng, chip, hay sức mạnh tính toán. Tuy nhiên, ngay cả khi khả năng của AI dừng lại ở mức hiện tại, nó vẫn sẽ mang lại những thay đổi lớn cho thế giới. Ví dụ, dự án Glasswing gần đây, Mythos Preview đã phát hiện hơn 10.000 lỗ hổng phần mềm nghiêm trọng và nguy hiểm chỉ trong vài tuần đầu tiên ra mắt, trải rộng trên các hệ thống quan trọng nhất toàn cầu.
Thứ hai là AI tiếp tục tăng tốc, nhưng con người vẫn nắm quyền kiểm soát. Hiệu quả tổ chức sẽ tăng theo cấp số nhân, một công ty 100 người có thể làm được công việc của 10.000 hoặc thậm chí 100.000 người. Anthropic cho rằng chúng ta rất có thể đang tiến vào kịch bản này. Tuy nhiên, họ cũng nhận thấy một hiện tượng thú vị, đó là sự thể hiện của Định luật Amdahl trong tổ chức: Claude viết mã nhanh chóng, nhưng việc xem xét mã lại trở thành nút thắt cổ chai mới. Các ý tưởng, công cụ và thử nghiệm mới bùng nổ, vượt xa khả năng tiếp nhận của tổ chức. Nút thắt cổ chai không biến mất, mà chỉ chuyển sang giai đoạn tiếp theo.
Thứ ba là AI đạt được khả năng tự cải thiện đệ quy hoàn toàn, bắt đầu tự tạo ra thế hệ AI tiếp theo. Trong kịch bản này, tốc độ phát triển của AI hoàn toàn phụ thuộc vào sức mạnh tính toán. Con người lùi về vị trí giám sát, xác minh và kiểm duyệt. Nếu điều này thực sự xảy ra, khả năng này rất có thể sẽ lan sang các lĩnh vực khoa học khác như y học, vật liệu, năng lượng, tạo ra những bước tiến vượt bậc trên mọi mặt trận.
Tất nhiên, một tương lai khác là thất bại trong căn chỉnh. Trong trường hợp này, các sai lệch sẽ tích lũy dần trong quá trình AI tự lặp lại, cuối cùng dẫn đến mất kiểm soát hoàn toàn.
Những quan điểm trên từ Anthropic về khả năng tự tiến hóa của AI thực sự đáng để chúng ta suy ngẫm. Ban đầu, có thể nhiều người sẽ nghĩ đây chỉ là một chiêu trò truyền thông của Anthropic khi họ sắp IPO. Nhưng có lẽ, lần này mọi chuyện đã khác. Bởi vì chỉ vài ngày trước, OpenAI cũng đã đăng một bài blog tương tự, trong đó họ cũng nhận thấy "những dấu hiệu ban đầu của sự tự tiến hóa trong các hệ thống hiện tại: sự phát triển của AI đang được chính AI tăng tốc". Họ dự đoán điều này sẽ làm gia tăng áp lực cạnh tranh giữa các nhà phát triển và các quốc gia, đồng thời mang lại những thách thức về quản trị mà các thể chế hiện có không thể đối phó. Với sự xuất hiện của RSI, xã hội cần có những phương pháp để định hình quỹ đạo phát triển của AI, đảm bảo nó phục vụ lợi ích của nhân loại.
Điểm kỳ dị, dường như đang đến nhanh hơn tất cả chúng ta dự đoán.