Xiaomi ra mắt AI giọng nói có thể "clone" giọng của bất kỳ ai chỉ sau vài giây

Mẫn Nhi · 21:28

Xiaomi vừa chính thức giới thiệu dòng AI giọng nói Xiaomi thế hệ mới mang tên MiMo-V2.5, bao gồm hai mô hình chủ chốt là MiMo-V2.5-TTS và MiMo-V2.5-ASR. Đây là bước tiến quan trọng sau phiên bản MiMo-V2 ra mắt vào tháng 3, mang đến khả năng sao chép giọng nói (voice clone) chỉ từ vài đoạn clip ngắn cùng khả năng nhận dạng phương ngữ tiếng Trung vượt trội. Bộ đôi công cụ này được thiết kế để tối ưu hóa trải nghiệm tương tác với trợ lý AI, cho phép người dùng tùy chỉnh âm thanh một cách linh hoạt và chuyên nghiệp trên nền tảng MiMo Open Platform của hãng.

Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS

Dòng MiMo-V2.5-TTS (Text-to-Speech) tập trung vào việc tạo ra âm thanh chất lượng cao với ba biến thể chuyên biệt, hiện đang được cung cấp miễn phí trong thời gian giới hạn. Mô hình MiMo-V2.5-TTS cơ bản cho phép người dùng điều chỉnh linh hoạt các thông số như tốc độ nói, ngữ điệu và cảm xúc. Trong khi đó, phiên bản MiMo-V2.5-TTS-VoiceDesign hỗ trợ tạo ra những giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn duy nhất.

Đáng chú ý nhất trong hệ sinh thái AI giọng nói Xiaomi lần này là mô hình MiMo-V2.5-TTS-VoiceClone. Công cụ này có khả năng sao chép chính xác giọng nói của một cá nhân cụ thể dựa trên vài mẫu âm thanh ngắn, đồng thời duy trì được tính nhất quán qua nhiều phong cách khác nhau. Điểm khác biệt của Xiaomi nằm ở việc cho phép người dùng điều khiển AI bằng ngôn ngữ tự nhiên thay vì các tham số kỹ thuật phức tạp. Hệ thống hỗ trợ nhập liệu kịch bản nhiều lớp, giúp điều chỉnh độc lập đặc điểm nhân vật, bối cảnh và lời thoại mà không làm mất đi sự đồng nhất của toàn bộ đoạn âm thanh.

Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến

Để tối ưu hóa khả năng diễn đạt, Xiaomi đã tích hợp các thẻ âm thanh nội tuyến (inline sound tags) vào mô hình TTS. Tính năng này cho phép người dùng kiểm soát cảm xúc hoặc cách diễn đạt tại từng vị trí cụ thể trong câu văn. Các thẻ này có thể kết hợp linh hoạt và hoạt động hiệu quả trên cả tiếng Trung lẫn tiếng Anh, đáp ứng tốt các tình huống phức tạp như xây dựng nhân vật trong trò chơi hoặc sản xuất kịch bản phát thanh chuyên nghiệp. Người dùng có thể mô tả giọng đọc mong muốn như cách một đạo diễn hướng dẫn diễn viên lồng tiếng, mang lại độ chân thực cao cho kết quả đầu ra.

MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ

Bên cạnh khả năng tổng hợp, Xiaomi cũng phát hành mã nguồn mở mô hình nhận dạng giọng nói MiMo-V2.5-ASR. Hệ thống này được thiết kế để xử lý các tình huống thực tế khó đoán như môi trường nhiều tiếng ồn hoặc hội thoại từ khoảng cách xa. Mô hình có khả năng tự động nhận diện và xử lý nhiều phương ngữ tiếng Trung bao gồm tiếng Ngô, Quảng Đông, Mân Nam và Tứ Xuyên mà không cần cài đặt ngôn ngữ trước.

Đặc biệt, MiMo-V2.5-ASR hỗ trợ chuyển đổi linh hoạt giữa tiếng Anh và tiếng Trung theo luồng hội thoại tự nhiên. Trong các buổi họp có nhiều người nói đồng thời, AI giọng nói Xiaomi có khả năng phân tách và ghi chép chính xác các cuộc đối thoại chồng chéo. Một tính năng ấn tượng khác là khả năng nhận dạng lời bài hát ngay cả khi giọng hát hòa trộn với nhạc nền. Hệ thống cũng tự động xử lý dấu câu dựa trên âm thanh và ngữ cảnh, giúp tạo ra các bản ghi chép hoàn chỉnh mà không cần chỉnh sửa hậu kỳ nhiều.

Kết luận

Với việc ra mắt bộ đôi MiMo-V2.5, Xiaomi đã khẳng định vị thế trong kỷ nguyên trợ lý AI tự động bằng cách cung cấp các công cụ tổng hợp và nhận dạng giọng nói toàn diện. Trong khi các mô hình TTS mang đến khả năng sao chép và thiết kế giọng nói đầy sáng tạo thông qua MiMo Studio, thì mô hình ASR mã nguồn mở lại mở ra cơ hội tùy chỉnh rộng lớn cho cộng đồng nhà phát triển. Sự kết hợp này không chỉ nâng cao độ chính xác trong nhận dạng đa ngôn ngữ, đa phương ngữ mà còn cá nhân hóa trải nghiệm âm thanh của người dùng ở một tầm cao mới.

FAQ

Mô hình MiMo-V2.5-TTS-VoiceClone có khả năng gì?

Mô hình này tập trung vào việc sao chép giọng nói của một người cụ thể từ vài mẫu âm thanh ngắn, đồng thời giữ nguyên tính nhất quán qua các phong cách và hướng dẫn khác nhau.

Mô hình nhận dạng giọng nói MiMo-V2.5-ASR hỗ trợ những phương ngữ nào?

Hệ thống hỗ trợ nhiều phương ngữ tiếng Trung như Ngô, Quảng Đông, Mân Nam và Tứ Xuyên, đồng thời tự động chuyển đổi giữa tiếng Trung và tiếng Anh.

Người dùng có thể trải nghiệm các mô hình AI giọng nói này ở đâu?

Các mô hình TTS có thể truy cập qua MiMo Studio trên nền tảng MiMo Open Platform của Xiaomi, còn mô hình ASR được phát hành mã nguồn mở để người dùng tự triển khai.

Có thể bạn quan tâm

Chủ đề hot

Có thể bạn quan tâm

Xiaomi ra mắt AI giọng nói có thể "clone" giọng của bất kỳ ai chỉ sau vài giây

Mẫn Nhi

Admin xinh gái

Mẫn Nhi

Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS

Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến

MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ

Kết luận

FAQ

Mô hình MiMo-V2.5-TTS-VoiceClone có khả năng gì?

Mô hình nhận dạng giọng nói MiMo-V2.5-ASR hỗ trợ những phương ngữ nào?

Người dùng có thể trải nghiệm các mô hình AI giọng nói này ở đâu?

"Quá nguy hiểm để công bố" đang trở thành chuẩn mực mới của AI

Không phải tưởng tượng: Claude Code thực sự "ngu đi" suốt 2 tháng qua, Anthropic phải xin lỗi

Anthropic thừa nhận lỗi kỹ thuật này làm Claude Code "bị ngu đi" suốt gần hai tháng qua

DeepSeek-V4 đã được phát hành và công khai mã nguồn, mô hình AI đầu tiên làm được điều này

Dùng AI miễn phí quen rồi, giờ phải trả tiền từ cú quay xe của các Big Tech

DeepSeek chính thức ra mắt DeepSeek V4, thời điểm ra mắt không khác gì "dằn mặt" ChatGPT

1,3 tỷ mật khẩu bị rò rỉ, đẩy hàng triệu tài khoản trực tuyến vào nguy hiểm

LANDFALL: Biến ảnh gửi qua WhatsApp thành vũ khí tấn công người dùng Samsung

Liên minh 3 nhóm hacker khét tiếng thành thế lực đe dọa toàn cầu

Cảnh báo: Mã độc giả mạo Telegram X chiếm toàn bộ điện thoại và thiết bị của bạn

Hơn 48.000 thiết bị Cisco đối mặt làn sóng tấn công từ ba lỗ hổng nghiêm trọng

Cháy trung tâm dữ liệu, hơn 600 dịch vụ chính phủ Hàn Quốc tê liệt

Khi dữ liệu số bị lộ: Hacker có thể làm gì với các thông tin tài chính của bạn?

Apple vá lỗ hổng nghiêm trọng trong hệ thống xử lý hình ảnh: Người dùng cần cập nhật ngay

HP OmniBook X Flip 14: Laptop chuẩn Copilot+ PC với AI mạnh mẽ, thiết kế linh hoạt cho người dùng hiện đại

MacBook Ultra: Laptop đầu tiên có màn hình OLED và cảm ứng của Apple?

Đánh giá nổi bật

Chủ đề hot

Có thể bạn quan tâm

Xiaomi ra mắt AI giọng nói có thể "clone" giọng của bất kỳ ai chỉ sau vài giây

Admin xinh gái

Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS​

Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến​

MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ​

Kết luận​

FAQ​

Mô hình MiMo-V2.5-TTS-VoiceClone có khả năng gì?​

Mô hình nhận dạng giọng nói MiMo-V2.5-ASR hỗ trợ những phương ngữ nào?​

Người dùng có thể trải nghiệm các mô hình AI giọng nói này ở đâu?​

"Quá nguy hiểm để công bố" đang trở thành chuẩn mực mới của AI

Không phải tưởng tượng: Claude Code thực sự "ngu đi" suốt 2 tháng qua, Anthropic phải xin lỗi

Anthropic thừa nhận lỗi kỹ thuật này làm Claude Code "bị ngu đi" suốt gần hai tháng qua

DeepSeek-V4 đã được phát hành và công khai mã nguồn, mô hình AI đầu tiên làm được điều này

Dùng AI miễn phí quen rồi, giờ phải trả tiền từ cú quay xe của các Big Tech

DeepSeek chính thức ra mắt DeepSeek V4, thời điểm ra mắt không khác gì "dằn mặt" ChatGPT

Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS

Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến

MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ

Kết luận

FAQ

Mô hình MiMo-V2.5-TTS-VoiceClone có khả năng gì?

Mô hình nhận dạng giọng nói MiMo-V2.5-ASR hỗ trợ những phương ngữ nào?

Người dùng có thể trải nghiệm các mô hình AI giọng nói này ở đâu?