Hư Trúc
Writer
Google vừa chính thức triển khai tính năng phiên dịch trực tiếp trên hai ứng dụng Google Translate và Google Meet tại thị trường Việt Nam. Thay đổi này cho phép người dùng nghe lời dịch trực tiếp bằng tiếng Việt theo thời gian thực với độ trễ thấp, mô phỏng hình thức dịch cabin chuyên nghiệp thay vì chỉ hiển thị phụ đề chữ viết trên màn hình như trước đây.
Sự nâng cấp này hoạt động trên nền tảng của mô hình âm thanh mới nhất mang tên Gemini 3.5 Live Translate, mang đến khả năng dịch giọng nói song song và đè lên âm thanh gốc.
Giao diện ứng dụng Google Translate ngày 10/6, với tính năng Dịch trực tiếp. Ảnh: Lưu Quý/VnExpress
Riêng trên hệ điều hành Android, Google đang triển khai thêm chế độ nghe bản dịch trực tiếp qua loa thoại. Người dùng có thể áp điện thoại lên tai như khi nhận một cuộc gọi thông thường để nghe âm thanh dịch, giúp bảo mật nội dung trò chuyện ở nơi công cộng hoặc khi không mang theo tai nghe.
Để đạt được tốc độ dịch gần như tức thời, mô hình Gemini 3.5 Live Translate liên tục xử lý và tạo ra bản dịch bằng giọng nói. Hệ thống tự động cân bằng giữa việc chờ thêm ngữ cảnh để đảm bảo chất lượng dịch và việc dịch ngay lập tức để giữ nhịp đồng bộ với người nói. Độ trễ của bản dịch trong cuộc trò chuyện thực tế được xác định là chậm khoảng vài giây.
Google cũng cung cấp công cụ này cho các nhà phát triển thông qua Gemini Live API và Google AI Studio để tích hợp vào các ứng dụng bên thứ ba. Ứng dụng gọi xe Grab hiện là một trong những đối tác thử nghiệm công nghệ này để hỗ trợ giao tiếp giữa tài xế và hành khách tại điểm đón. Thống kê từ Google cho biết hiện có khoảng 10 triệu cuộc gọi thoại mỗi tháng trên nền tảng Grab được hỗ trợ bởi công nghệ dịch trực tiếp này.
Nhằm ngăn chặn nguy cơ công nghệ dịch giọng nói bị lạm dụng để tạo ra thông tin sai lệch, tất cả các nội dung âm thanh dịch được tạo ra bởi AI sẽ được gắn nhãn bản quyền số bằng công nghệ SynthID.
Sự nâng cấp này hoạt động trên nền tảng của mô hình âm thanh mới nhất mang tên Gemini 3.5 Live Translate, mang đến khả năng dịch giọng nói song song và đè lên âm thanh gốc.
Giao diện ứng dụng Google Translate ngày 10/6, với tính năng Dịch trực tiếp. Ảnh: Lưu Quý/VnExpress
Cơ chế dịch cabin trực tiếp bằng điện thoại
Để sử dụng tính năng này trên ứng dụng Google Translate cho thiết bị iOS và Android, người dùng chọn mục "Dịch trực tiếp" ở góc trái màn hình và kết nối với tai nghe. Khi đối phương bắt đầu nói, một giọng phiên dịch tiếng Việt sẽ phát song song với âm thanh gốc qua tai nghe. Hệ thống có khả năng phản ánh chính xác tông giọng của người nói với hơn 70 ngôn ngữ khác nhau.Riêng trên hệ điều hành Android, Google đang triển khai thêm chế độ nghe bản dịch trực tiếp qua loa thoại. Người dùng có thể áp điện thoại lên tai như khi nhận một cuộc gọi thông thường để nghe âm thanh dịch, giúp bảo mật nội dung trò chuyện ở nơi công cộng hoặc khi không mang theo tai nghe.
Cập nhật trên Google Meet và công nghệ Gemini 3.5 Live Translate
Tính năng dịch trực tiếp cũng được áp dụng trên nền tảng họp trực tuyến Google Meet, hỗ trợ hơn 70 ngôn ngữ thay vì chỉ 5 ngôn ngữ như trước đây, cho phép trò chuyện qua lại giữa hơn 2.000 cặp tổ hợp ngôn ngữ khác nhau trong một cuộc họp. Hiện tại, bản Preview của tính năng này mới được cung cấp giới hạn cho một số khách hàng doanh nghiệp thuộc Google Workspace trước khi mở rộng rộng rãi vào cuối năm.Để đạt được tốc độ dịch gần như tức thời, mô hình Gemini 3.5 Live Translate liên tục xử lý và tạo ra bản dịch bằng giọng nói. Hệ thống tự động cân bằng giữa việc chờ thêm ngữ cảnh để đảm bảo chất lượng dịch và việc dịch ngay lập tức để giữ nhịp đồng bộ với người nói. Độ trễ của bản dịch trong cuộc trò chuyện thực tế được xác định là chậm khoảng vài giây.
Google cũng cung cấp công cụ này cho các nhà phát triển thông qua Gemini Live API và Google AI Studio để tích hợp vào các ứng dụng bên thứ ba. Ứng dụng gọi xe Grab hiện là một trong những đối tác thử nghiệm công nghệ này để hỗ trợ giao tiếp giữa tài xế và hành khách tại điểm đón. Thống kê từ Google cho biết hiện có khoảng 10 triệu cuộc gọi thoại mỗi tháng trên nền tảng Grab được hỗ trợ bởi công nghệ dịch trực tiếp này.
Nhằm ngăn chặn nguy cơ công nghệ dịch giọng nói bị lạm dụng để tạo ra thông tin sai lệch, tất cả các nội dung âm thanh dịch được tạo ra bởi AI sẽ được gắn nhãn bản quyền số bằng công nghệ SynthID.