OpenAI trao quyền lực siêu phàm cho agent giọng nói: Nhiều ứng dụng mới đang đến!

Trong năm nay, các tác nhân trí tuệ nhân tạo (AI) có khả năng thực hiện các nhiệm vụ thay mặt người dùng đã trở thành tâm điểm chú ý, với nhiều công ty không ngừng phát triển các giải pháp giúp giảm bớt khối lượng công việc cho người dùng. Để đảm bảo rằng những tương tác này diễn ra một cách suôn sẻ nhất có thể, nhiều công ty đang hướng tới các tác nhân AI đa phương thức, và OpenAI đang tạo điều kiện cho việc phát triển những sản phẩm này trở nên dễ dàng hơn bao giờ hết.

Mới đây, OpenAI đã công bố cập nhật cho Realtime API của họ, hiện đã có sẵn cho công chúng, với những tính năng mới cho phép các nhà phát triển và doanh nghiệp xây dựng các tác nhân thoại đáng tin cậy hơn. Realtime API lần đầu tiên được OpenAI ra mắt vào tháng 10 năm 2024 dưới dạng thử nghiệm công khai. Bên cạnh đó, công ty cũng phát hành mô hình chuyển đổi giọng nói tiên tiến nhất của mình, mang tên gpt-realtime. Miqdad Jaffer, một sản phẩm của OpenAI, chia sẻ với ZDNET rằng: “Chúng tôi tin rằng giọng nói là phương tiện tiếp theo. Mọi người sẽ thích nói và mô tả chính xác những gì họ đang làm, và đôi khi, việc diễn đạt bằng giọng nói sẽ dễ dàng và tự nhiên hơn nhiều so với việc phải viết ra.”

Từ ngày hôm nay, Realtime API và mô hình gpt-realtime mới đã có sẵn cho tất cả các nhà phát triển. Họ có thể thử nghiệm mô hình này trong Playground và đọc tài liệu Realtime API để đưa ra quyết định tốt nhất. Khi được hỏi các nhà phát triển nên xem xét điều gì, Jaffer nhấn mạnh: “Hãy làm những gì tốt nhất cho người dùng của bạn, và một trong những điều tốt nhất cho người dùng là có thể tương tác theo cách mà họ cảm thấy thoải mái và dễ dàng, và chúng tôi tin rằng giọng nói chính là tương lai.”