Google DeepMind vừa ra mắt D4RT, và đây là lý do giới công nghệ nói rằng AI đã bắt đầu “hiểu thế giới như con người”

Checker
Checker
Phản hồi: 0

Checker

Writer
Google DeepMind vừa công bố một công nghệ mới có tên D4RT. Nghe có vẻ kỹ thuật, nhưng bản chất của nó rất đơn giản. D4RT giúp AI nhìn và hiểu video theo cả không gian lẫn thời gian, chứ không còn chỉ nhìn từng khung hình rời rạc như trước.
1769149591125.png

Trước đây, nếu muốn máy tính hiểu một video, các kỹ sư phải chia nhỏ công việc. Một hệ thống tính chuyển động, một hệ thống đo khoảng cách, một hệ thống xác định góc quay camera. Tất cả ghép lại vừa chậm vừa dễ lỗi. Làm xong một video ngắn có khi mất hàng giờ, thậm chí cả đêm.

D4RT thay đổi hoàn toàn cách làm đó. Nó dùng một cách tiếp cận mới, coi cả video như một “bức tranh sống” duy nhất. AI sẽ ghi nhớ toàn bộ cảnh, rồi khi cần, chỉ việc đặt câu hỏi kiểu như: điểm này đang ở đâu trong không gian 3D, nó đã di chuyển thế nào và sắp đi đâu tiếp theo. Mọi thứ được xử lý cùng lúc, không cần chia nhỏ từng bước.
1769149611347.png

Điều gây sốc nhất là tốc độ. DeepMind cho biết D4RT nhanh hơn các công nghệ trước đây từ vài chục đến hàng trăm lần. Một video dài một phút có thể được xử lý chỉ trong vài giây. Điều này không phải là nói quá, vì thay vì xử lý tuần tự từng bước, D4RT xử lý song song hàng nghìn điểm ảnh cùng lúc.

Không chỉ nhanh, độ chính xác của nó cũng rất cao. Với những cảnh phức tạp như động vật chạy, hoa lay trong gió hay người qua lại đông đúc, các hệ thống cũ thường tạo ra hình ảnh 3D bị nhòe, chồng bóng. D4RT thì khác. Nó phân biệt rõ đâu là chuyển động của vật thể, đâu là chuyển động của camera, nên mô hình 3D rất sạch và sát thực tế.
1769149630483.png

Một điểm thú vị là D4RT có thể theo dõi từng pixel. Bạn có thể chọn một điểm rất nhỏ trên cánh hoa trong video, và AI có thể vẽ lại quỹ đạo 3D của điểm đó từ quá khứ đến tương lai, kể cả khi nó bị che khuất trong vài khung hình. Cảm giác giống như AI không còn “xem video” nữa, mà đang thực sự hiểu cả cảnh vật đang diễn ra.

Ý nghĩa của điều này rất lớn. Với robot và xe tự lái, đây là mảnh ghép còn thiếu. Máy không chỉ biết vật đang ở đâu, mà còn dự đoán nó sẽ đi đâu trong khoảnh khắc tiếp theo. Điều này cực kỳ quan trọng cho an toàn và khả năng phản ứng.

Với thực tế tăng cường AR, D4RT mở đường cho những trải nghiệm chân thực hơn nhiều. Kính AR trong tương lai có thể hiểu chính xác căn phòng bạn đang đứng, biết đồ vật ở đâu, che khuất ra sao, và hiển thị nội dung ảo gần như không có độ trễ.
1769149646091.png

Ngay cả người dùng bình thường cũng sẽ hưởng lợi. Trong chỉnh sửa video hoặc ảnh trên điện thoại, bạn có thể xoay góc nhìn sau khi đã quay xong, xóa người thừa khỏi khung hình phức tạp, hoặc chỉnh ánh sáng như thể đang dựng phim chuyên nghiệp.
1769149654871.png

D4RT cho thấy AI đang bước sang một giai đoạn mới. Từ chỗ chỉ nhận dạng hình ảnh 2D, giờ nó bắt đầu hiểu thế giới theo 4 chiều, gồm không gian và thời gian. Với AI, quá khứ và tương lai không còn mơ hồ. Chúng chỉ là những câu hỏi khác nhau đặt ra trên cùng một bức tranh sống động của thế giới.

Tài liệu tham khảo:

 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy9nb29nbGUtZGVlcG1pbmQtdnVhLXJhLW1hdC1kNHJ0LXZhLWRheS1sYS1seS1kby1naW9pLWNvbmctbmdoZS1ub2ktcmFuZy1haS1kYS1iYXQtZGF1LWhpZXUtdGhlLWdpb2ktbmh1LWNvbi1uZ3VvaS43Nzk1MC8=
Top