Google DeepMind công bố "hàng khủng" Gemini Omni, mô hình AI đa phương thức mới

Thoại Viết Hoàng · 20/05/2026

Google DeepMind công bố Gemini Omni, một mô hình mới có khả năng tạo ra bất kỳ nội dung nào từ bất kỳ đầu vào nào bằng cách kết hợp khả năng suy luận của Gemini với các hệ thống tạo nội dung đa phương tiện như Veo, Nano Banana và Genie. Đây là một phần quan trọng trong chiến lược tích hợp trí tuệ suy luận của Gemini với các hệ thống nội dung sinh hoạt của Google.

Vậy nó có những tính năng hay ưu việt gì để thu hút sự chú ý của anh em, những người vốn đã được quá nhiều model AI phục vụ? Mình chia sẻ ngay đây:

Tính năng nổi bật của Gemini Omni

Theo blog Google vừa công bố, Gemini Omni có thể tạo nội dung “bất cứ thứ gì từ bất cứ thứ gì”: Người dùng có thể kết hợp nhiều loại đầu vào (văn bản, hình ảnh, âm thanh, video) để sinh ra chất lượng cao của video. Mô hình hiểu về chiều sâu thế giới thực tế, vật lý, chuyển động liên tục và tính chất tối thiểu của nhân vật. Ví dụ: Định nghĩa một nhân vật một lần và sử dụng xuyên suốt nhiều cảnh với ngoại hình, hành động và ánh sáng nhất quán.

Chỉnh sửa video tự nhiên bằng ngôn ngữ hội thoại: Không chỉ tạo mới, Gemini Omni cho phép chỉnh sửa video dễ dàng bằng lệnh ngôn ngữ tự nhiên, tạo ra thay đổi môi trường, thêm/xóa vật thể, thay đổi chuyển động mà không cần kỹ năng chuyên môn.

Hiểu biết thế giới và vật lý vượt trội: Nhờ kết hợp lý luận của Gemini, mô hình cải thiện đáng kể về mô mô vật lý, tính liên tục (tính liên tục) và tính nhất quán so với các hệ thống trước đó.

Phiên bản đầu tiên - Gemini Omni Flash: Phát triển tăng dần cho nhà phát triển và khách hàng doanh nghiệp thông qua Gemini API và Agent Platform. Mô hình có thể tạo video clip + âm thanh dài đến khoảng 10 giây, kết hợp phong phú kiến trúc thực tế. Phiên bản Omni Pro dự kiến ra mắt sau.

Google đã tung các bản demo minh họa khả năng tạo video claymation giải thích việc gấp protein, mô phỏng chuyển động phức tạp hoặc chỉnh sửa video theo yêu cầu hội thoại.

Gemini Omni không chỉ là bản nâng cấp của Veo (mô hình video chuyên biệt của Google) mà là sự kết hợp thông minh giữa trí tuệ Gemini và khả năng kết xuất phương tiện. Nó biết biết thế giới thực tế tốt hơn, tính nhất quán cao hơn và có khả năng chỉnh sửa hoạt động thân thiện với người dùng.

Ưu điểm lớn nhất là sự kết hợp liền mạch giữa suy luận (lý luận) và sinh nội dung, giúp tạo ra cách kể chuyện phức tạp, giáo dục hoặc sáng tạo nhanh hơn.

Gemini Omni cạnh tranh trực tiếp với OpenAI Sora, Runway, Pika Labs, Kling (của Trung Quốc) và các công cụ video AI độc lập khác. Google nhấn mạnh lợi thế về kiến thức thế giới , mô phỏng vật lý và chỉnh sửa hội thoại - những điểm giúp Omni phù hợp hơn cho ứng dụng chuyên nghiệp, giáo dục và sản xuất nội dung quy mô lớn. Đây là bước đi cụ thể hướng tới mô hình “omni” (tất cả mọi thứ) mà nhiều công ty đang theo đuổi. Gemini Omni Flash đã bắt đầu phát triển và sẽ tích hợp các sản phẩm Google vào thời gian tới. Đây được xem là bước tiến quan trọng của Google DeepMind trong việc dân chủ hóa công cụ sáng tạo AI mạnh mẽ.

Thông tin dựa trên thông báo chính thức từ Google DeepMind và blog Google (tháng 5/2026).