APEIRIA: Mở khóa khả năng suy luận 3D minh bạch cho AI đa phương thức

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Bạn đã bao giờ tự hỏi liệu một trí tuệ nhân tạo có thể không chỉ "nhìn" thấy thế giới 3D xung quanh chúng ta mà còn "hiểu" và "giải thích" cách nó đưa ra quyết định, giống như một con người vậy? Nghe có vẻ viễn tưởng, nhưng một nghiên cứu đột phá từ Đại học Bắc Kinh đang đưa chúng ta đến gần hơn với khả năng đó.

Hiện tại, AI xử lý không gian 3D đang đi theo hai hướng chính, và cả hai đều có những hạn chế riêng. Một bên là các mô hình ngôn ngữ lớn đa phương thức 3D (3D MLLM) - chúng rất giỏi trong việc hiểu ngôn ngữ tự nhiên phức tạp, thậm chí cả những khái niệm "mở" như "chiếc ghế ấm cúng" hay "bàn làm việc bừa bộn". Nhưng vấn đề là, quá trình suy luận của chúng lại giống như một "hộp đen" – chúng ta không thể biết tại sao chúng lại đưa ra kết quả đó. Nếu AI trả lời sai, rất khó để xác định lỗi nằm ở đâu: nhận diện vật thể, hiểu mối quan hệ không gian, hay quá trình suy luận tổng thể?

Ngược lại, các phương pháp thần kinh-ký hiệu 3D (neuro-symbolic 3D) lại có khả năng suy luận minh bạch, từng bước một, thông qua các chương trình có thể kiểm chứng. Tuy nhiên, chúng lại bị giới hạn bởi vốn từ vựng cố định và các mô-đun khái niệm cứng nhắc, khó mở rộng để xử lý các chỉ dẫn phức tạp trong thế giới thực.
1782376745395.png

Vậy làm thế nào để chúng ta có thể kết hợp những ưu điểm tốt nhất của cả hai? Đó chính là câu hỏi mà nhóm nghiên cứu tại Viện Nghiên cứu Máy tính Vương Tuyển thuộc Đại học Bắc Kinh đã đặt ra và tìm được lời giải đáp với APEIRIA – một khung làm việc mới cho suy luận không gian 3D. Công trình này, với tác giả chính là nghiên cứu sinh tiến sĩ Mạc Văn Thao và tác giả liên hệ là giáo sư hướng dẫn Lưu Dương, đã được chấp nhận tại ICML 2026, một trong những hội nghị AI hàng đầu thế giới.

APEIRIA giải quyết mâu thuẫn trên bằng cách "chưng cất" các mô hình suy luận không gian có hệ thống từ các chương trình thần kinh-ký hiệu vào các mô hình 3D MLLM. Nó sử dụng một khung học tập ba giai đoạn để làm điều này:

Đầu tiên, ở Giai đoạn 1: Căn chỉnh nhận thức 3D, mô hình được dạy cách "nhìn" thế giới 3D. Nó học cách nhận diện vật thể, hiểu thuộc tính và dự đoán vị trí, đồng thời căn chỉnh các đặc trưng thị giác-hình học 3D của vật thể với không gian ngôn ngữ của mô hình ngôn ngữ lớn (LLM). Điều này giúp AI có được khả năng hiểu cảnh 3D cơ bản.

Tiếp theo, ở Giai đoạn 2: Tiêm nhiễm suy luận ký hiệu, mô hình học cách "suy nghĩ theo từng bước". Các quỹ đạo thực thi đã được kiểm chứng từ các chương trình thần kinh-ký hiệu được trích xuất và chuyển đổi thành chuỗi suy nghĩ (Chain-of-Thought - CoT) bằng ngôn ngữ tự nhiên. Mỗi bước trong chuỗi này không chỉ bao gồm kế hoạch mà còn cả kết quả thực thi cụ thể (như ID vật thể, vị trí, kích thước, đánh giá mối quan hệ không gian), cung cấp tín hiệu giám sát quá trình chính xác cho mô hình.

Cuối cùng, ở Giai đoạn 3: Học tăng cường chuỗi suy nghĩ (CoT-RL), mô hình được huấn luyện để thích nghi với các chỉ dẫn mở trong thế giới thực. Trong dữ liệu thực tế, việc có được giám sát quá trình từng bước đầy đủ thường rất khó. APEIRIA sử dụng học tăng cường (Reinforcement Learning), chỉ dựa vào kết quả suy luận không gian 3D cuối cùng và các ràng buộc định dạng làm tín hiệu thưởng, để mở rộng mô hình suy luận đã học được sang các khái niệm từ vựng mở và các chỉ dẫn ngôn ngữ tự nhiên phức tạp hơn.

Điều đặc biệt là, không giống như việc để mô hình tự do tạo ra chuỗi suy nghĩ, CoT của APEIRIA được "chưng cất" từ các quỹ đạo chương trình có thể kiểm chứng. Điều này có nghĩa là mỗi bước trung gian đều được gắn với ID vật thể, tọa độ và kích thước cụ thể, giúp quá trình suy luận không chỉ dễ đọc mà còn giữ được tính "mô-đun" quan trọng của các phương pháp suy luận 3D thần kinh-ký hiệu.

Nhờ cách tiếp cận này, APEIRIA đã đạt được những kết quả ấn tượng trên nhiều bộ dữ liệu đánh giá suy luận không gian 3D. Nó vượt trội hoặc ngang bằng với các phương pháp 3D MLLM hàng đầu hiện nay trên ScanRefer và Multi3DRefer. Khi kết hợp với khả năng tăng cường nhận thức mô-đun, hiệu suất của APEIRIA thậm chí còn vượt xa tất cả các phương pháp suy luận không gian 3D hiện có.

Một điểm đáng chú ý khác là khả năng tổng quát hóa từ vựng mở của APEIRIA. Ngay cả khi chỉ được huấn luyện trên các chỉ dẫn tổng hợp, nó vẫn có thể chuyển giao "zero-shot" (không cần huấn luyện thêm) sang các chỉ dẫn ngôn ngữ tự nhiên mà nó chưa từng thấy. Điều này cho thấy APEIRIA đã học được một mô hình suy luận có thể chuyển giao, chứ không chỉ đơn thuần là khớp nối các khái niệm trong một vốn từ vựng đóng. Các thử nghiệm loại bỏ (ablation studies) cũng khẳng định sự cần thiết của thiết kế ba giai đoạn này. Nếu bỏ qua giai đoạn CoT-RL, hiệu suất giảm đáng kể. Nếu bỏ qua cả giai đoạn tiêm nhiễm suy luận ký hiệu và đi thẳng từ căn chỉnh nhận thức sang học tăng cường, sự suy giảm còn rõ rệt hơn. Điều này chứng tỏ "khởi động nóng suy luận" mà các chương trình ký hiệu cung cấp đóng góp rất lớn vào hiệu suất cuối cùng.

APEIRIA còn giữ được một lợi thế quan trọng của các phương pháp thần kinh-ký hiệu: tính mô-đun. Nhờ việc chuỗi suy nghĩ tách biệt rõ ràng giữa lập kế hoạch (planning) và thực thi (execution), chúng ta có thể thay thế các mô-đun trong quá trình suy luận mà không cần huấn luyện lại toàn bộ mô hình. Ví dụ, khi thay thế mô-đun nhận thức bằng SegDINO3D mạnh hơn, hiệu suất trên các bộ dữ liệu suy luận 3D đã tăng lên đáng kể. Điều này cho thấy nút thắt hiệu suất hiện tại chủ yếu đến từ nhận thức thị giác chứ không phải lập kế hoạch suy luận, và các mô-đun nhận thức 3D mạnh hơn trong tương lai có thể trực tiếp mang lại lợi ích cho APEIRIA mà không cần huấn luyện lại.

Thậm chí, khi phân tích định tính chuỗi suy nghĩ trong quá trình suy luận thực tế, APEIRIA còn thể hiện hành vi suy luận tự nhiên. Khi đối mặt với các mô tả đa điều kiện như "this beige chair is next to the coat rack and to the left of the table and lamp" (chiếc ghế màu be này nằm cạnh giá treo áo và bên trái bàn và đèn), mô hình sẽ định vị từng vật thể tham chiếu riêng lẻ, sau đó tự động kết hợp các phép toán logic như giao (intersection) và hợp (union) để lọc ra các mục tiêu đồng thời thỏa mãn nhiều ràng buộc không gian. Điều này cho thấy mô hình không chỉ đơn thuần ghi nhớ các mẫu chương trình mà còn phần nào nội hóa được các quy tắc kết hợp logic không gian.

APEIRIA mở ra một con đường mới để kết nối các mô hình 3D MLLM với suy luận thần kinh-ký hiệu. Bằng cách chưng cất suy luận từ các chương trình ký hiệu thành chuỗi suy nghĩ ngôn ngữ tự nhiên, mô hình này vừa có khả năng hiểu ngữ nghĩa mở, vừa có khả năng suy luận không gian minh bạch. Thiết kế học tập ba giai đoạn giúp mô hình dần dần từ nhận thức cơ bản đến suy luận có thể kiểm chứng, và sau đó là tổng quát hóa trong thế giới mở.

Công trình này cũng mang lại nguồn cảm hứng lớn cho các hệ thống AI có khả năng hiện thân (embodied AI). Trong các kịch bản như điều hướng robot hay tương tác trong nhà, AI không chỉ cần đưa ra câu trả lời mà còn cần giải thích cơ sở suy luận, xác định lỗi tiềm ẩn và có khả năng liên tục phát triển khi các mô-đun nhận thức và lập kế hoạch được nâng cấp. APEIRIA chính là một bước tiến vững chắc theo hướng đó.

Bạn có thể tìm hiểu thêm về nghiên cứu này qua các liên kết sau:

* Distilling Neuro-Symbolic Programs into 3D Multi-modal LLMs https://arxiv.org/abs/2606.01215
* Mã nguồn: https://github.com/oceanflowlab/APEIRIA
* Trang dự án: https://matthewdm0816.github.io/Apeiria_Open/
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9hcGVpcmlhLW1vLWtob2Eta2hhLW5hbmctc3V5LWx1YW4tM2QtbWluaC1iYWNoLWNoby1haS1kYS1waHVvbmctdGh1Yy44NjA2My8=
Top