Xiaomi ra mắt AI giọng nói có thể "clone" giọng của bất kỳ ai chỉ sau vài giây

Mẫn Nhi
Mẫn Nhi
Phản hồi: 0

Mẫn Nhi

Admin xinh gái
Xiaomi vừa chính thức giới thiệu dòng AI giọng nói Xiaomi thế hệ mới mang tên MiMo-V2.5, bao gồm hai mô hình chủ chốt là MiMo-V2.5-TTS và MiMo-V2.5-ASR. Đây là bước tiến quan trọng sau phiên bản MiMo-V2 ra mắt vào tháng 3, mang đến khả năng sao chép giọng nói (voice clone) chỉ từ vài đoạn clip ngắn cùng khả năng nhận dạng phương ngữ tiếng Trung vượt trội. Bộ đôi công cụ này được thiết kế để tối ưu hóa trải nghiệm tương tác với trợ lý AI, cho phép người dùng tùy chỉnh âm thanh một cách linh hoạt và chuyên nghiệp trên nền tảng MiMo Open Platform của hãng.

Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS​

1777127303334.png


Dòng MiMo-V2.5-TTS (Text-to-Speech) tập trung vào việc tạo ra âm thanh chất lượng cao với ba biến thể chuyên biệt, hiện đang được cung cấp miễn phí trong thời gian giới hạn. Mô hình MiMo-V2.5-TTS cơ bản cho phép người dùng điều chỉnh linh hoạt các thông số như tốc độ nói, ngữ điệu và cảm xúc. Trong khi đó, phiên bản MiMo-V2.5-TTS-VoiceDesign hỗ trợ tạo ra những giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn duy nhất.

Đáng chú ý nhất trong hệ sinh thái AI giọng nói Xiaomi lần này là mô hình MiMo-V2.5-TTS-VoiceClone. Công cụ này có khả năng sao chép chính xác giọng nói của một cá nhân cụ thể dựa trên vài mẫu âm thanh ngắn, đồng thời duy trì được tính nhất quán qua nhiều phong cách khác nhau. Điểm khác biệt của Xiaomi nằm ở việc cho phép người dùng điều khiển AI bằng ngôn ngữ tự nhiên thay vì các tham số kỹ thuật phức tạp. Hệ thống hỗ trợ nhập liệu kịch bản nhiều lớp, giúp điều chỉnh độc lập đặc điểm nhân vật, bối cảnh và lời thoại mà không làm mất đi sự đồng nhất của toàn bộ đoạn âm thanh.

Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến​

Để tối ưu hóa khả năng diễn đạt, Xiaomi đã tích hợp các thẻ âm thanh nội tuyến (inline sound tags) vào mô hình TTS. Tính năng này cho phép người dùng kiểm soát cảm xúc hoặc cách diễn đạt tại từng vị trí cụ thể trong câu văn. Các thẻ này có thể kết hợp linh hoạt và hoạt động hiệu quả trên cả tiếng Trung lẫn tiếng Anh, đáp ứng tốt các tình huống phức tạp như xây dựng nhân vật trong trò chơi hoặc sản xuất kịch bản phát thanh chuyên nghiệp. Người dùng có thể mô tả giọng đọc mong muốn như cách một đạo diễn hướng dẫn diễn viên lồng tiếng, mang lại độ chân thực cao cho kết quả đầu ra.

MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ​

Bên cạnh khả năng tổng hợp, Xiaomi cũng phát hành mã nguồn mở mô hình nhận dạng giọng nói MiMo-V2.5-ASR. Hệ thống này được thiết kế để xử lý các tình huống thực tế khó đoán như môi trường nhiều tiếng ồn hoặc hội thoại từ khoảng cách xa. Mô hình có khả năng tự động nhận diện và xử lý nhiều phương ngữ tiếng Trung bao gồm tiếng Ngô, Quảng Đông, Mân Nam và Tứ Xuyên mà không cần cài đặt ngôn ngữ trước.

Đặc biệt, MiMo-V2.5-ASR hỗ trợ chuyển đổi linh hoạt giữa tiếng Anh và tiếng Trung theo luồng hội thoại tự nhiên. Trong các buổi họp có nhiều người nói đồng thời, AI giọng nói Xiaomi có khả năng phân tách và ghi chép chính xác các cuộc đối thoại chồng chéo. Một tính năng ấn tượng khác là khả năng nhận dạng lời bài hát ngay cả khi giọng hát hòa trộn với nhạc nền. Hệ thống cũng tự động xử lý dấu câu dựa trên âm thanh và ngữ cảnh, giúp tạo ra các bản ghi chép hoàn chỉnh mà không cần chỉnh sửa hậu kỳ nhiều.

Kết luận​

Với việc ra mắt bộ đôi MiMo-V2.5, Xiaomi đã khẳng định vị thế trong kỷ nguyên trợ lý AI tự động bằng cách cung cấp các công cụ tổng hợp và nhận dạng giọng nói toàn diện. Trong khi các mô hình TTS mang đến khả năng sao chép và thiết kế giọng nói đầy sáng tạo thông qua MiMo Studio, thì mô hình ASR mã nguồn mở lại mở ra cơ hội tùy chỉnh rộng lớn cho cộng đồng nhà phát triển. Sự kết hợp này không chỉ nâng cao độ chính xác trong nhận dạng đa ngôn ngữ, đa phương ngữ mà còn cá nhân hóa trải nghiệm âm thanh của người dùng ở một tầm cao mới.

FAQ​

Mô hình MiMo-V2.5-TTS-VoiceClone có khả năng gì?​

Mô hình này tập trung vào việc sao chép giọng nói của một người cụ thể từ vài mẫu âm thanh ngắn, đồng thời giữ nguyên tính nhất quán qua các phong cách và hướng dẫn khác nhau.

Mô hình nhận dạng giọng nói MiMo-V2.5-ASR hỗ trợ những phương ngữ nào?​

Hệ thống hỗ trợ nhiều phương ngữ tiếng Trung như Ngô, Quảng Đông, Mân Nam và Tứ Xuyên, đồng thời tự động chuyển đổi giữa tiếng Trung và tiếng Anh.

Người dùng có thể trải nghiệm các mô hình AI giọng nói này ở đâu?​

Các mô hình TTS có thể truy cập qua MiMo Studio trên nền tảng MiMo Open Platform của Xiaomi, còn mô hình ASR được phát hành mã nguồn mở để người dùng tự triển khai.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly93d3cudm5yZXZpZXcudm4vdGhyZWFkcy94aWFvbWktcmEtbWF0LWFpLWdpb25nLW5vaS1jby10aGUtY2xvbmUtZ2lvbmctY3VhLWJhdC1reS1haS1jaGktc2F1LXZhaS1naWF5LjgyMjcwLw==
Top