Mẫn Nhi
Admin xinh gái
Xiaomi vừa chính thức giới thiệu dòng AI giọng nói Xiaomi thế hệ mới mang tên MiMo-V2.5, bao gồm hai mô hình chủ chốt là MiMo-V2.5-TTS và MiMo-V2.5-ASR. Đây là bước tiến quan trọng sau phiên bản MiMo-V2 ra mắt vào tháng 3, mang đến khả năng sao chép giọng nói (voice clone) chỉ từ vài đoạn clip ngắn cùng khả năng nhận dạng phương ngữ tiếng Trung vượt trội. Bộ đôi công cụ này được thiết kế để tối ưu hóa trải nghiệm tương tác với trợ lý AI, cho phép người dùng tùy chỉnh âm thanh một cách linh hoạt và chuyên nghiệp trên nền tảng MiMo Open Platform của hãng.
Dòng MiMo-V2.5-TTS (Text-to-Speech) tập trung vào việc tạo ra âm thanh chất lượng cao với ba biến thể chuyên biệt, hiện đang được cung cấp miễn phí trong thời gian giới hạn. Mô hình MiMo-V2.5-TTS cơ bản cho phép người dùng điều chỉnh linh hoạt các thông số như tốc độ nói, ngữ điệu và cảm xúc. Trong khi đó, phiên bản MiMo-V2.5-TTS-VoiceDesign hỗ trợ tạo ra những giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn duy nhất.
Đáng chú ý nhất trong hệ sinh thái AI giọng nói Xiaomi lần này là mô hình MiMo-V2.5-TTS-VoiceClone. Công cụ này có khả năng sao chép chính xác giọng nói của một cá nhân cụ thể dựa trên vài mẫu âm thanh ngắn, đồng thời duy trì được tính nhất quán qua nhiều phong cách khác nhau. Điểm khác biệt của Xiaomi nằm ở việc cho phép người dùng điều khiển AI bằng ngôn ngữ tự nhiên thay vì các tham số kỹ thuật phức tạp. Hệ thống hỗ trợ nhập liệu kịch bản nhiều lớp, giúp điều chỉnh độc lập đặc điểm nhân vật, bối cảnh và lời thoại mà không làm mất đi sự đồng nhất của toàn bộ đoạn âm thanh.
Đặc biệt, MiMo-V2.5-ASR hỗ trợ chuyển đổi linh hoạt giữa tiếng Anh và tiếng Trung theo luồng hội thoại tự nhiên. Trong các buổi họp có nhiều người nói đồng thời, AI giọng nói Xiaomi có khả năng phân tách và ghi chép chính xác các cuộc đối thoại chồng chéo. Một tính năng ấn tượng khác là khả năng nhận dạng lời bài hát ngay cả khi giọng hát hòa trộn với nhạc nền. Hệ thống cũng tự động xử lý dấu câu dựa trên âm thanh và ngữ cảnh, giúp tạo ra các bản ghi chép hoàn chỉnh mà không cần chỉnh sửa hậu kỳ nhiều.
Công nghệ tổng hợp và sao chép giọng nói MiMo-V2.5-TTS
Dòng MiMo-V2.5-TTS (Text-to-Speech) tập trung vào việc tạo ra âm thanh chất lượng cao với ba biến thể chuyên biệt, hiện đang được cung cấp miễn phí trong thời gian giới hạn. Mô hình MiMo-V2.5-TTS cơ bản cho phép người dùng điều chỉnh linh hoạt các thông số như tốc độ nói, ngữ điệu và cảm xúc. Trong khi đó, phiên bản MiMo-V2.5-TTS-VoiceDesign hỗ trợ tạo ra những giọng đọc hoàn toàn mới chỉ từ một câu mẫu ngắn duy nhất.
Đáng chú ý nhất trong hệ sinh thái AI giọng nói Xiaomi lần này là mô hình MiMo-V2.5-TTS-VoiceClone. Công cụ này có khả năng sao chép chính xác giọng nói của một cá nhân cụ thể dựa trên vài mẫu âm thanh ngắn, đồng thời duy trì được tính nhất quán qua nhiều phong cách khác nhau. Điểm khác biệt của Xiaomi nằm ở việc cho phép người dùng điều khiển AI bằng ngôn ngữ tự nhiên thay vì các tham số kỹ thuật phức tạp. Hệ thống hỗ trợ nhập liệu kịch bản nhiều lớp, giúp điều chỉnh độc lập đặc điểm nhân vật, bối cảnh và lời thoại mà không làm mất đi sự đồng nhất của toàn bộ đoạn âm thanh.
Kiểm soát chi tiết âm thanh bằng thẻ nội tuyến
Để tối ưu hóa khả năng diễn đạt, Xiaomi đã tích hợp các thẻ âm thanh nội tuyến (inline sound tags) vào mô hình TTS. Tính năng này cho phép người dùng kiểm soát cảm xúc hoặc cách diễn đạt tại từng vị trí cụ thể trong câu văn. Các thẻ này có thể kết hợp linh hoạt và hoạt động hiệu quả trên cả tiếng Trung lẫn tiếng Anh, đáp ứng tốt các tình huống phức tạp như xây dựng nhân vật trong trò chơi hoặc sản xuất kịch bản phát thanh chuyên nghiệp. Người dùng có thể mô tả giọng đọc mong muốn như cách một đạo diễn hướng dẫn diễn viên lồng tiếng, mang lại độ chân thực cao cho kết quả đầu ra.MiMo-V2.5-ASR: Nhận dạng giọng nói mã nguồn mở đa phương ngữ
Bên cạnh khả năng tổng hợp, Xiaomi cũng phát hành mã nguồn mở mô hình nhận dạng giọng nói MiMo-V2.5-ASR. Hệ thống này được thiết kế để xử lý các tình huống thực tế khó đoán như môi trường nhiều tiếng ồn hoặc hội thoại từ khoảng cách xa. Mô hình có khả năng tự động nhận diện và xử lý nhiều phương ngữ tiếng Trung bao gồm tiếng Ngô, Quảng Đông, Mân Nam và Tứ Xuyên mà không cần cài đặt ngôn ngữ trước.Đặc biệt, MiMo-V2.5-ASR hỗ trợ chuyển đổi linh hoạt giữa tiếng Anh và tiếng Trung theo luồng hội thoại tự nhiên. Trong các buổi họp có nhiều người nói đồng thời, AI giọng nói Xiaomi có khả năng phân tách và ghi chép chính xác các cuộc đối thoại chồng chéo. Một tính năng ấn tượng khác là khả năng nhận dạng lời bài hát ngay cả khi giọng hát hòa trộn với nhạc nền. Hệ thống cũng tự động xử lý dấu câu dựa trên âm thanh và ngữ cảnh, giúp tạo ra các bản ghi chép hoàn chỉnh mà không cần chỉnh sửa hậu kỳ nhiều.