Khi AI tự code không cần người quản lý: Thành quả nửa tỷ đồng và những rủi ro an ninh

Thảo Nông
Thảo Nông
Phản hồi: 0
Giới công nghệ toàn cầu vừa chứng kiến một cột mốc gây chấn động khi Nicholas Carlini, nhà nghiên cứu thuộc nhóm Safeguards của Anthropic, công bố kết quả của một thử nghiệm táo bạo. Chỉ trong vòng hai tuần ngắn ngủi, một đội ngũ gồm 16 tác nhân trí tuệ nhân tạo (AI agents) vận hành trên mô hình Claude Opus 4.6 đã tự động xây dựng thành công một trình biên dịch ngôn ngữ C từ con số không. Thành quả này không chỉ tiêu tốn khoản chi phí đáng kể lên tới gần 20.000 USD (khoảng 528 triệu đồng) mà còn đặt ra những câu hỏi lớn về tương lai của ngành lập trình và an ninh mạng.

1770799431208.png

Đội quân "lập trình viên ảo" hoạt động không cần người chỉ huy

Khác với các phương thức sử dụng AI hỗ trợ lập trình truyền thống nơi con người đóng vai trò trung tâm, thử nghiệm của Carlini đã trao quyền tự chủ gần như tuyệt đối cho máy móc. Ông đã thiết lập một hệ thống gồm 16 phiên bản Claude Opus 4.6 hoạt động song song, đóng vai trò như một đội ngũ kỹ sư phần mềm thực thụ nhưng không có người quản lý trực tiếp (orchestrator). Mỗi "nhân viên ảo" này hoạt động trong một container riêng biệt với ngữ cảnh độc lập, sử dụng một vòng lặp liên tục để tự nhận nhiệm vụ, xử lý mã nguồn và đẩy kết quả trở lại kho lưu trữ chung (git repo).

Để giải quyết bài toán xung đột dữ liệu khi nhiều AI cùng làm việc trên một mã nguồn, hệ thống sử dụng cơ chế tập tin khóa (lock file). Khi một agent nhận nhiệm vụ, nó sẽ "khóa" tác vụ đó lại, buộc các agent khác phải tìm kiếm công việc khác để thực hiện. Sau gần 2.000 phiên làm việc liên tục không ngơi nghỉ, các Claude đã tự động hợp nhất mã nguồn, xử lý các xung đột phát sinh và tiếp tục vòng lặp phát triển. Bên cạnh các agent viết mã chính, hệ thống còn phân bổ các agent chuyên biệt đảm nhận vai trò rà soát mã trùng lặp, tối ưu hiệu năng, đánh giá kiến trúc dưới góc nhìn của chuyên gia ngôn ngữ Rust và soạn thảo tài liệu kỹ thuật.

1770799460425.png

Thành quả ấn tượng và cái giá phải trả

Kết quả thu được sau 14 ngày là một trình biên dịch hoàn chỉnh được viết bằng ngôn ngữ Rust với quy mô khoảng 100.000 dòng mã. Sản phẩm này đã chứng minh năng lực vượt trội khi có thể biên dịch thành công nhân Linux 6.9 trên các kiến trúc phần cứng phổ biến như x86, ARM và RISC-V. Để đạt được điều này, dự án đã tiêu tốn chi phí API lên tới 20.000 USD. Dù đây là một con số không nhỏ, nhưng nếu so sánh với mức lương trung bình của hai kỹ sư phần mềm tại Mỹ trong cùng khoảng thời gian, đây được xem là một mức chi phí cực kỳ cạnh tranh cho một khối lượng công việc khổng lồ.

Nếu nhìn lại lịch sử, trình biên dịch C đầu tiên do huyền thoại Dennis Ritchie viết vào đầu thập niên 1970 tại Bell Labs đã phải mất khoảng 2 năm để hoàn thiện với sự tham gia của nhiều kỹ sư tài năng. Tất nhiên, bối cảnh công nghệ thời đó còn nhiều hạn chế, nhưng việc Claude Opus 4.6 có thể tái hiện thành tựu này chỉ trong hai tuần cho thấy tốc độ phát triển khủng khiếp của năng lực AI trong năm 2026.

1770799481216.png

Những giới hạn kỹ thuật và sự phụ thuộc vào GCC

Mặc dù đạt được những kết quả đáng kinh ngạc, Nicholas Carlini cũng thẳng thắn thừa nhận sản phẩm của Claude vẫn chưa thể thay thế các công cụ lão làng như GCC. Trình biên dịch do AI tạo ra vẫn còn tồn tại nhiều khiếm khuyết, điển hình là việc chưa có khả năng xử lý chế độ thực 16-bit, một thành phần cốt yếu để khởi động hệ điều hành Linux, khiến nó vẫn phải phụ thuộc vào GCC ở giai đoạn này. Bên cạnh đó, các bộ hợp dịch (assembler) và bộ liên kết (linker) do Claude tự xây dựng vẫn còn sơ khai và chứa lỗi, buộc hệ thống phải dựa vào các công cụ bên ngoài để vận hành trơn tru.

Về mặt chất lượng, mã biên dịch đầu ra của Claude cũng kém hiệu quả hơn so với mã do GCC tạo ra, ngay cả khi đã kích hoạt toàn bộ các tùy chọn tối ưu hóa. Chất lượng mã nguồn Rust được đánh giá là ổn định nhưng vẫn còn một khoảng cách khá xa so với sự tinh tế và chặt chẽ của các lập trình viên chuyên nghiệp. Để khắc phục, đội ngũ nghiên cứu đã phải sử dụng GCC làm trình biên dịch tham chiếu, giúp các agent so sánh và xác định vị trí lỗi chính xác để tự sửa chữa song song.

1770799498335.png

Rủi ro tiềm ẩn trong kỷ nguyên phần mềm tự động

Dự án này không chỉ là một màn phô diễn kỹ thuật mà còn là thước đo năng lực cho các thế hệ mô hình ngôn ngữ lớn. Carlini tiết lộ rằng phiên bản tiền nhiệm Claude Opus 4.5 chỉ đủ sức tạo ra trình biên dịch vượt qua các bài kiểm tra cơ bản, và phải đến phiên bản 4.6, AI mới đủ "trưởng thành" để xử lý các dự án quy mô lớn như biên dịch nhân Linux. Tuy nhiên, sự tiến bộ thần tốc này cũng đi kèm với những lo ngại sâu sắc về an toàn.

Việc triển khai phần mềm do AI viết hoàn toàn mà không qua sự kiểm duyệt gắt gao của con người tiềm ẩn những rủi ro an ninh mạng nghiêm trọng, đặc biệt là trong các hệ thống yêu cầu độ tin cậy cao. Các mã lỗi tinh vi hoặc lỗ hổng bảo mật có thể bị bỏ qua khi quy trình phát triển được tự động hóa 100%. Carlini kết luận rằng ông không ngờ khả năng này lại đạt được sớm như vậy ngay trong năm 2026 và cảnh báo rằng nhân loại đang bước vào một kỷ nguyên mới của phát triển phần mềm, nơi cần có những chiến lược quản trị rủi ro phù hợp để khai thác sức mạnh của AI một cách an toàn và hiệu quả.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9raGktYWktdHUtY29kZS1raG9uZy1jYW4tbmd1b2ktcXVhbi1seS10aGFuaC1xdWEtbnVhLXR5LWRvbmctdmEtbmh1bmctcnVpLXJvLWFuLW5pbmguNzkxNzkv
Top