Google tìm ra mô hình mới để bỏ qua đào tạo GPU | Diễn giải bài báo mới của DeepMind

The Kings · 10:45

Bước sang cuối năm 2025, cuộc cạnh tranh trong AI chuyển từ chạy đua xử lý văn bản dài sang tối ưu khả năng ghi nhớ. DeepMind mở hai hướng tiếp cận khác nhau. Kiến trúc HOPE cố gắng tái thiết toàn bộ Transformer để tạo bộ nhớ dài hạn và ngắn hạn giống sinh vật sống, nhưng không tương thích với hạ tầng hiện tại và đòi hỏi thay đổi rất lớn. Ngược lại, Evo Memory lại không động vào tham số mô hình mà bổ sung một cơ chế trí nhớ linh hoạt thông qua suy luận siêu cấp, cho phép mô hình đóng băng vẫn tự phản ánh và cải thiện hành vi trong lúc sử dụng.

Cơ chế mới này giúp trí nhớ không còn là dữ liệu tĩnh như RAG truyền thống. Thay vì chỉ truy xuất và nhồi nhét thông tin, hệ thống mới biết tự đánh giá, tự cắt tỉa, tự rút kinh nghiệm từ các lần thành công và thất bại. DeepMind gọi khung này là ReMem. Mỗi lần thực hiện nhiệm vụ, mô hình sẽ trải nghiệm, nhận phản hồi, tự xem lại cách làm, rút gọn quy tắc và lưu lại ký ức có chọn lọc. Nhờ vậy mô hình thực hiện nhiệm vụ nhanh hơn, chính xác hơn và tránh được nhiễu.

Điểm quan trọng nhất là ReMem biến ngữ cảnh thành một dạng “trọng số mềm”, nghĩa là mô hình vẫn giữ nguyên tham số nhưng lại có thể học liên tục và thay đổi hành vi giống như đang được huấn luyện. Sự tích lũy và cắt tỉa ký ức hoạt động tương tự các bước tối ưu hóa trọng số truyền thống. Điều này mở ra khả năng cho các mô hình học mà không cần huấn luyện lại.

Cuối cùng, ReMem sử dụng siêu suy luận, tức mô hình tự phân tích chính quá trình suy luận của mình. Đây là bước tiến quan trọng giúp AI không chỉ giải bài toán mà còn biết rút kinh nghiệm như con người.

Nếu năm 2024 là cuộc chạy đua vũ trang cho các văn bản dài, thì đến cuối năm 2025, với các mô hình tự phát triển và khả năng học tập liên tục trở thành nút thắt cốt lõi tiếp theo đối với các mô hình, chiến trường đã chuyển sang việc cải thiện toàn diện khả năng ghi nhớ.

Trong trận chiến này, Google DeepMind đã tấn công từ cả hai phía, công bố hai bài báo trong vòng một tháng, cố gắng giải quyết vấn đề này theo hai hướng hoàn toàn khác nhau.

Đầu tháng 11, DeepMind đã công bố nghiên cứu đột phá về Học tập lồng nhau, đề xuất kiến trúc HOPE.

Đây là một cuộc cách mạng công nghiệp nặng điển hình. Google đang cố gắng tái cấu trúc cấu trúc cơ bản của Transformer để cung cấp cho AI bộ nhớ dài hạn vĩnh viễn và các khớp thần kinh ngắn hạn tạm thời, biến nó từ một cơ sở tri thức đã chết thành một người học sống.

Xét về giá trị, với tư cách là mô hình trọng số mở hoàn toàn đầu tiên, đây thực sự là một bước chuyển đổi mô hình. Tuy nhiên, để triển khai được, nó đòi hỏi một cuộc đại tu toàn diện cơ sở hạ tầng AI hiện có, vì nó hoàn toàn không tương thích với các mô hình cũ.

Tuy nhiên, chỉ vài tuần sau đó, vào ngày 27 tháng 11, một nhóm khác từ DeepMind, hợp tác với UIUC, đã phát hành một bài báo khác, "Evo-Memory" .

Bài báo này không cố gắng thay đổi bất kỳ tham số mô hình nào, mà thay vào đó tìm ra một con đường mới để cung cấp cho mô hình khả năng học liên tục.

Nó mang đến một khả năng mới cho toàn bộ ngành công nghiệp: một bộ não LLM đông lạnh có thể hoạt động như một mô hình được đào tạo bằng cách liên tục phản ánh và tái tạo lại ký ức của chính nó.

Mặc dù có vẻ không phải là một công nghệ cơ bản, nhưng xét về mặt kỹ thuật và ứng dụng, đây chắc chắn là một sự thay đổi lớn.

Trước đây, chúng ta nghĩ rằng kỹ thuật ngữ cảnh chỉ là một biện pháp tạm thời để con người dạy AI làm việc. Nhưng Evo-Memory đã chứng minh rằng khi ngữ cảnh có khả năng tự phản ánh, tự cắt tỉa và tự phản ánh, nó không còn là một từ gợi ý tĩnh nữa mà là một trọng số linh hoạt.

Cụ thể, điều này có nghĩa là bộ nhớ không còn là các tín hiệu ngữ cảnh cố định nữa mà là các đối tượng có thể chỉnh sửa được, có thể được chủ động truy xuất, cắt tỉa và kết hợp lại trong quá trình suy luận, giống như các tham số trọng số trong mạng nơ-ron, có thể được điều chỉnh và tối ưu hóa động.

Hơn nữa, nhờ nó, chúng ta không cần phải chờ đợi một quá trình tái cấu trúc kiến trúc từ xa để cho phép mô hình liên tục học hỏi. Thông qua siêu suy luận, giờ đây chúng ta có thể cho phép AI đóng băng tham số đó phát triển trí thông minh mới trong mọi tương tác.

Thế tiến thoái lưỡng nan của RAG

Khi thảo luận về hệ thống bộ nhớ của AI, người ta không thể bỏ qua RAG (Retrieval Enhanced Generation).

Trong hai năm qua, RAG gần như đã trở thành một tính năng tiêu chuẩn trong các ứng dụng mô hình quy mô lớn. Cho dù đó là robot dịch vụ khách hàng, trợ lý mã hóa hay hệ thống hỏi đáp dựa trên kiến thức, tất cả đều dựa trên kiến trúc này.

Từ lâu, RAG được xem là giải pháp cho chứng hay quên và ảo tưởng của các mô hình lớn. Logic của nó rất đơn giản và dễ hiểu: mô hình không thể nhớ dữ liệu riêng tư? Không vấn đề gì, chỉ cần cắt dữ liệu thành các phần nhỏ và lưu trữ trong cơ sở dữ liệu vector. Bất cứ điều gì người dùng yêu cầu, chúng sẽ lấy thông tin đó và đưa vào mô hình để đọc to.

Tuy nhiên, sổ ghi chép có thể tìm kiếm không phải là bộ nhớ. Bởi vì bộ nhớ không phải là bản ghi video, mà là bản ghi nén.

Các hệ thống RAG truyền thống giống như những thủ thư không có sự phân biệt, chỉ đơn giản lưu trữ tất cả lịch sử hội thoại và nhật ký hoạt động trong một kho. Chúng không học; chúng chỉ tìm kiếm theo từ khóa.

Vì vậy, khi bạn lần đầu hỏi AI "cách giải phương trình bậc hai", nó sẽ lấy công thức từ kho kiến thức và đưa ra câu trả lời đúng. Lần thứ 100, lần thứ 1000, nó cũng sẽ làm như vậy. Nó sẽ không bao giờ phát triển được một cơ chế phản hồi nhanh chóng, mang tính thực nghiệm chỉ vì nó đã trả lời cùng một câu hỏi hàng ngàn lần.

Điều đáng lo ngại hơn nữa là nội dung mà nó thu thập có thể chứa thông tin mâu thuẫn, lỗi thời hoặc không liên quan, nhưng lại thiếu khả năng phân biệt ký ức nào có giá trị và ký ức nào là nhiễu. Đối mặt với cùng một vấn đề, hệ thống thu thập mười bản ghi có liên quan, ba trong số đó là các bài toán cũ đã được giải, hai là kết quả dương tính giả, và chỉ có năm bản ghi thực sự hữu ích. Tuy nhiên, RAG sẽ nhồi nhét cả mười bản ghi này vào mô hình, khiến nó phải loay hoay với đống thông tin hỗn loạn.

Điều này cho thấy hầu hết các hệ thống trí nhớ hiện tại vẫn ở mức độ nhớ lại thông qua hội thoại; chúng chỉ nhớ những gì đã nói, chứ không nhớ những gì đã học. Cơ chế nhớ lại tĩnh và thụ động này ngăn cản các tác nhân tích lũy kinh nghiệm khi phải đối mặt với một chuỗi nhiệm vụ liên tục, và chúng chỉ có thể lặp lại quá khứ một cách máy móc.

Theo mô hình này, RAG, với tư cách là một bộ nhớ chỉ cộng mà không trừ, chỉ lưu trữ mà không phản ánh, cuối cùng sẽ bị nhiễu quá mức. Dữ liệu càng nhiều, RAG càng có thể tạo ra nhiều lỗi.

Học là gì? Đó là việc thêm một bộ lọc phản ánh vào trí nhớ.

Vậy làm thế nào chúng ta có thể khiến thông tin được đưa vào RAG hữu ích hơn và giống với việc học hơn? Ở đây, chúng ta cần tham khảo con đường "làm thế nào con người trở nên mạnh mẽ hơn". Nếu chúng ta chết trong một cuộc phục kích trong trò chơi, chúng ta sẽ không bao giờ chết theo cùng một cách nữa. Con người suy nghĩ và học hỏi.

Đây chính là điều chúng ta gọi là sự thành thạo đạt được thông qua học tập. Bản chất của việc học là ghi nhớ thực sự. Nó không phải là lưu trữ, mà là sàng lọc, sắp xếp và phát triển.

Bài báo thiết kế một khuôn khổ gọi là ReMem, một cuộc cách mạng hóa quy trình hai giai đoạn truyền thống của việc truy xuất và tạo RAG. Nó giới thiệu một chiều hướng hoàn toàn mới: Tinh chỉnh (tối ưu hóa). Trong mỗi lần thực hiện tác vụ, AI không còn thụ động truy xuất và áp dụng bộ nhớ nữa, mà chủ động đánh giá, sắp xếp lại và thậm chí cắt tỉa ngân hàng bộ nhớ của chính nó.

Trong quá trình thêm ký ức mới, mô hình trải qua các bước sau:

Trải nghiệm: Tác nhân thực hiện các nhiệm vụ trong môi trường (chẳng hạn như tìm kiếm thứ gì đó trong AlfWorld).
Phản hồi: Môi trường sẽ cho biết liệu nó thành công hay thất bại.
Suy luận siêu hình (Tinh chỉnh): Trước khi lưu trữ thông tin vào bộ nhớ, tác nhân phải tự vấn. Hệ thống hỏi tác nhân: "Dựa trên kết quả trước đó, bước nào là thừa? Bước nào là quan trọng? Nếu bạn thất bại, tại sao?"
Lắng đọng: Tác nhân thực hiện cắt tỉa và sắp xếp lại , nén quy trình thăm dò gồm 20 bước thành một quy tắc vàng duy nhất: "Đi thẳng đến quầy để tìm cốc" và lưu trữ vào cơ sở dữ liệu.

Đây không chỉ là thêm một bước; mà còn trao cho các tác nhân thông minh quyền chỉnh sửa bộ não của chính mình.

Hiệu quả của cơ chế này là tức thì. Trong môi trường nhà ảo Alf World, mô hình cơ sở mất trung bình 22,6 bước để hoàn thành nhiệm vụ cho một quả cà chua đông lạnh vào lò vi sóng. Tuy nhiên, mô hình được trang bị ReMem chỉ cần 11,5 bước. Điều này là do nó đã học được cách xác định những trải nghiệm công việc nào có thể được chuyển giao và những khác biệt tinh tế nào cần được chú ý, do đó tránh được gần một nửa số lần đi đường vòng.

Trên tập dữ liệu ToolBench, mô hình ExpRAG được trang bị khả năng truy xuất dựa trên kinh nghiệm đã cải thiện độ chính xác của lệnh gọi API từ 61% lên 73%. Mô hình không chỉ học cách gọi API mà còn học cách suy nghĩ về việc gọi chúng. Nó có thể học hỏi từ những thất bại trong quá khứ và rút ra chiến lược từ những trường hợp thành công.

Điều thú vị hơn nữa là sự khác biệt về tỷ lệ cắt tỉa bộ nhớ. Trên các tập dữ liệu khoa học liên ngành như GPQA, mô hình chủ động loại bỏ 36,8% các mục nhập bộ nhớ. Điều này là do các bản ghi này đến từ các lĩnh vực khác nhau và không có giá trị tham chiếu cho bài toán hiện tại. Tuy nhiên, trên tập dữ liệu cuộc thi toán AIME, tỷ lệ cắt tỉa chỉ là 17,5%, vì các chiến lược giải quyết vấn đề trong các bài toán thường tương tự nhau.

Nhờ ReMem, RAG không còn chỉ là một thủ thư mù quáng chấp nhận mọi thứ; nó đã học được những khía cạnh quan trọng nhất của việc học: tinh chỉnh và lãng quên . Các chuyên gia con người làm việc hiệu quả không phải vì họ nhớ mọi chi tiết, mà vì họ biết khi nào nên bỏ qua điều gì. ReMem cho phép AI có được khả năng chú ý chọn lọc này thông qua trí nhớ.

Sự thay đổi mô hình thực sự mà nó mang lại chính là bối cảnh có trọng lượng.

Nếu bài báo này chỉ mang lại bản nâng cấp như đã đề cập ở trên cho RAG thì giá trị của nó có vẻ rất hạn chế.

Nhưng thực tế nó cho thấy một sự thay đổi có thể làm thay đổi toàn bộ mô hình đào tạo: bối cảnh có thể trở thành trọng số mới.

Trước đây, chúng tôi tin rằng một mô hình chỉ học được điều gì đó khi các tham số trọng số của nó được điều chỉnh thông qua lan truyền ngược. Đây chính là những gì mà huấn luyện, hậu huấn luyện, SFT và các kỹ thuật khác thực hiện. Sau khi huấn luyện hoàn tất, mô hình sẽ bị "đóng băng" và sẽ không ghi nhớ bất kỳ thông tin mới nào trong quá trình triển khai; tất cả quá trình thích ứng đều được thực hiện bằng cách điều chỉnh ngữ cảnh đầu vào.

Tuy nhiên, kỹ thuật ngữ cảnh trước đây về cơ bản là con người dạy các quy tắc AI. Chúng tôi đã cẩn thận thiết kế các ví dụ ít cảnh và viết hướng dẫn chi tiết, cố gắng đưa các mô hình hành vi chính xác vào mô hình thông qua một cửa sổ ngữ cảnh. Mặc dù ngữ cảnh này thực sự có thể thay đổi hành vi của mô hình, nhưng nó vẫn mang tính bên ngoài và tĩnh, không phát triển theo quá trình sử dụng mô hình.

Tuy nhiên, ReMem đã chứng minh rằng nếu một mô hình đóng băng có thể liên tục tái tạo bối cảnh của chính nó thông qua phản xạ, thì bối cảnh đó sẽ tương đương về mặt toán học với các trọng số.

Điều này là do việc tích lũy ngữ cảnh về cơ bản là đào tạo không giám sát. Trong mô hình mới này, ngữ cảnh không còn là những quy tắc tĩnh phụ thuộc vào các câu trả lời chuẩn do con người cung cấp nữa. Nó học hỏi thông qua quá trình thử và sai trong môi trường, tạo ra dữ liệu và tự củng cố thông qua các tương tác với môi trường.

Thứ hai, phương pháp tự củng cố này rất giống với quy trình huấn luyện. Trong giai đoạn huấn luyện thông thường, mô hình dựa vào phương pháp giảm dần độ dốc để giảm trọng số của các đường dẫn không chính xác và tăng trọng số của các đường dẫn đúng. Trong giai đoạn suy luận, ReMem mô phỏng hoàn hảo quy trình này bằng cách điều chỉnh trọng số lựa chọn thông qua việc tích lũy và cắt tỉa bộ nhớ .

Ví dụ, khi mô hình thất bại trong một tác vụ, ReMem sẽ phân tích lý do thông qua suy luận siêu hình và đánh dấu đường dẫn thất bại là một ví dụ tiêu cực hoặc cắt tỉa trực tiếp. Trong lần truy xuất tiếp theo, ngữ cảnh đã xử lý này sẽ có tác dụng ức chế mạnh mẽ lên cơ chế chú ý, buộc mô hình phải tránh các lựa chọn không chính xác. Trên thực tế, điều này tương đương với việc áp dụng một hình phạt tiêu cực cho đường dẫn đó bằng RLHF (Học tăng cường phản hồi của con người).

Khi mô hình tóm tắt một lối tắt và lưu trữ nó trong bộ nhớ, trải nghiệm này sẽ được ghi nhớ lại nhiều trong quá trình suy luận trong tương lai, trực tiếp làm tăng khả năng tạo ra hành động chính xác.

Dữ liệu trong bài báo cũng ủng hộ quan điểm này. Khi một tập dữ liệu chứa các trải nghiệm thất bại được đưa vào, hiệu suất của các hệ thống RAG thông thường giảm trực tiếp vì chúng không thể phân biệt giữa kết quả tốt và xấu; trong khi ReMem có thể "biến rác thành kho báu" thông qua cơ chế phản xạ và duy trì tỷ lệ thành công cực kỳ cao.

Điều này chứng minh rằng ngữ cảnh đã sở hữu các đặc tính cốt lõi của trọng số: khả năng chống nhiễu, hiệu chỉnh lỗi và khái quát hóa. Mô hình đạt được hiệu chỉnh hành vi vĩnh viễn bằng cách lưu trữ trải nghiệm trong bộ nhớ mà không cần cập nhật bất kỳ tham số nào.

Trong tương lai, chúng ta có thể không cần phải thực sự tính toán gradient hay cập nhật tham số. Chỉ cần thông qua việc phản ánh và tinh chỉnh ở cấp độ ngôn ngữ tự nhiên, mô hình có thể thể hiện các hiệu chỉnh hành vi như thể nó đã được huấn luyện.

Siêu lý luận là một khái niệm quan trọng khác trong bài báo này của Google.

Siêu suy luận là gì? Trong Chuỗi Tư duy (CoT) truyền thống, mô hình nằm trong chính nhiệm vụ suy luận. Điều này vẫn đang giải quyết vấn đề.

ReMem giới thiệu siêu lý luận, tức là lý luận về chính quá trình lý luận . Nó yêu cầu mô hình phải bước ra khỏi nhiệm vụ và xem xét quá trình tư duy từ góc nhìn của một bên thứ ba, giống như Chúa, chỉ ra lỗi và rút ra hướng đi đúng đắn.

(Lời nhắc nhở về trí nhớ của Evo Memory, công thức cho tư duy siêu việt)

Bản thân logic này không hề mới. Ngay từ năm 2023, các nhà nghiên cứu trong lĩnh vực này đã đề xuất kiến trúc Reflexion để định hướng khả năng siêu nhận thức của mô hình. Năm nay, Karpathy cũng đã nhiều lần khẳng định rằng các mô hình cần có khả năng phản xạ. Và quá trình phản xạ chính xác là siêu lý luận.

Khả năng này trước đây chưa được khai thác triệt để vì các mô hình trước đây chủ yếu chỉ là những công cụ giải quyết vấn đề xuất sắc, thiếu khả năng tự vấn sâu sắc cần thiết để trở thành người đặt vấn đề (hướng dẫn đánh giá). ReMem chứng minh rằng các mô hình tiên tiến hiện nay (như Gemini 2.5 và Claude 3.7) đã sở hữu khả năng này. Chúng không chỉ có thể tạo ra câu trả lời mà còn đánh giá chất lượng của những câu trả lời đó và chuyển đổi chúng thành kiến thức chiến lược thay vì chỉ là kiến thức thực tế.

Một lý do khác khiến siêu lý luận không thể được áp dụng trong quá khứ là bản chất đặc biệt của kiến thức chiến lược. Chiến lược là sản phẩm của suy luận quy nạp từ kinh nghiệm, chẳng hạn như kỹ năng chơi game. Loại kiến thức này không bao giờ có thể được tạo ra từ một trải nghiệm duy nhất; cần có đủ số lượng ví dụ để hình thành nên một chiến lược theo phương pháp quy nạp.

Trước Evo-Memory, các hệ thống bộ nhớ thường có tầm nhìn hạn hẹp. Bị giới hạn bởi các cửa sổ ngữ cảnh hoặc logic truy xuất đơn giản, các mô hình thường chỉ có thể nhìn thấy một hoặc hai tương tác gần nhất. Nó có thể nhớ vừa mới va vào tường, nhưng lại không nhớ đã va vào tường tuần trước, đêm qua, hay hôm kia.

Nếu không có đủ ví dụ, lý luận siêu hình sẽ mất đi giá trị.

Thành công của ReMem một phần là nhờ tận dụng khả năng xử lý ngữ cảnh dài và tích lũy bộ nhớ có cấu trúc của các mô hình lớn hiện đại, cho phép mô hình cuối cùng đạt đến kích thước mẫu quan trọng cần thiết cho các chiến lược quy nạp . Nó biến khả năng suy luận siêu hình này thành một thuật toán nén ngữ nghĩa thực sự hiệu quả với những lợi ích lâu dài.

Đây là logic cốt lõi khiến cho bối cảnh, tức là trọng số, trở nên hợp lệ.

Câu đố hoàn chỉnh của Hệ thống 2

Việc thiết lập mô hình này cuối cùng đã cho phép chúng ta thấy được hình dạng hoàn chỉnh của thế hệ AI tiếp theo.

DeepSeek V3.2, phiên bản mới nổi gần đây, thể hiện khả năng lập kế hoạch trước hành động bằng cách thực hiện các quy trình suy nghĩ sâu rộng trước khi gọi API. Trong khi đó, ReMem thể hiện khả năng phản ánh sau hành động , thực hiện phân tích chuyên sâu sau khi hoàn thành một nhiệm vụ.

Sự kết hợp của hai yếu tố này tạo thành một vòng lặp tư duy Hệ thống 2 hoàn chỉnh . Trước đây, chúng ta nghĩ RAG là một ổ cứng ngoài, một vấn đề lưu trữ; giờ đây chúng ta hiểu rằng bộ nhớ là một vấn đề tính toán . Chỉ thông tin đã trải qua quá trình siêu suy luận (đã được làm sạch, nén và cấu trúc) mới đủ điều kiện để đi vào ngữ cảnh và do đó đóng vai trò trọng số trong mạng nơ-ron đông lạnh này.

Evo-Memory cho chúng ta biết rằng chúng ta không cần phải chờ đến ngày các kiến trúc nặng ký như Học Lồng ghép trở nên phổ biến. Miễn là mô hình cơ bản đủ thông minh để hiểu các lệnh phản xạ, giờ đây chúng ta có thể đạt được một nguyên mẫu AGI (Trí tuệ Nhân tạo Tổng quát) ở một mức độ nào đó bằng cách để mô hình tự huấn luyện trong bộ nhớ: một cuộc sống số với các tham số không đổi nhưng trí thông minh của nó vẫn tiếp tục phát triển theo thời gian.