Courtesy of TechCrunch

OpenAI Hadirkan Model Suara dan Transkripsi AI Lebih Realistis dan Akurat

21 Mar 2025, 00.00 WIB

179 dibaca

Ikhtisar 15 Detik

OpenAI meluncurkan model suara dan transkripsi baru yang lebih akurat dan dapat disesuaikan.
Model gpt-4o-mini-tts memungkinkan pengembang untuk mengatur emosi dan konteks suara.
OpenAI tidak akan merilis model transkripsi baru secara terbuka karena kompleksitasnya.

OpenAI telah meluncurkan model baru untuk transkripsi dan penghasil suara yang lebih baik daripada versi sebelumnya. Model-model ini termasuk "gpt-4o-mini-tts" untuk teks ke suara dan "gpt-4o-transcribe" untuk suara ke teks. Model suara baru ini dapat berbicara dengan berbagai gaya, seperti suara ilmuwan gila atau suara tenang seperti guru mindfulness. Tujuannya adalah agar pengembang dapat menyesuaikan pengalaman suara sesuai dengan konteks, misalnya, suara yang terdengar menyesal dalam layanan pelanggan.

Model transkripsi baru ini juga lebih akurat dan dapat menangkap berbagai aksen dengan lebih baik, bahkan dalam lingkungan yang bising. Namun, OpenAI tidak akan merilis model-model ini secara terbuka seperti sebelumnya, karena model ini lebih besar dan kompleks daripada model sebelumnya, Whisper. Mereka ingin memastikan bahwa rilis model terbuka dilakukan dengan hati-hati dan sesuai kebutuhan pengguna.

Referensi:
[1] https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

Analisis Ahli

Olivier Godemont

"Agen-agen bertenaga suara yang semakin banyak akan membantu bisnis membangun interaksi otomatis yang lebih natural dan efisien."

Jeff Haris

"Model baru telah mampu mengurangi kesalahan transkripsi dan menghilangkan masalah halusinasi yang kerap muncul di model lama seperti Whisper."

Analisis Kami

"Kemampuan gpt-4o-mini-tts untuk mengembangkan suara dengan emosi yang dapat disesuaikan membuka peluang baru dalam interaksi manusia-mesin yang jauh lebih alami dan manusiawi dibandingkan model sebelumnya. Namun, ketidaktersediaan model transkripsi secara terbuka berpotensi membatasi inovasi di komunitas pengembang independen dan penelitian terbuka."

Prediksi Kami

Model AI dengan kemampuan suara dan transkripsi yang lebih baik serta dapat dikendalikan secara emosional akan semakin banyak diadopsi, sehingga agen otomatis berbasis suara akan menjadi lebih umum dalam pelayanan pelanggan dan aplikasi bisnis lainnya.

Pertanyaan Terkait

Apa tujuan dari model gpt-4o-mini-tts yang baru?

Tujuan dari model gpt-4o-mini-tts adalah untuk memberikan suara yang lebih realistis dan dapat disesuaikan, memungkinkan pengembang untuk mengatur cara berbicara dalam konteks yang berbeda.

Bagaimana gpt-4o-transcribe berbeda dari model Whisper sebelumnya?

gpt-4o-transcribe lebih akurat dalam menangkap berbagai aksen dan berbicara dalam lingkungan yang bising dibandingkan dengan model Whisper sebelumnya.

Apa yang dimaksud dengan 'agen' dalam konteks artikel ini?

Dalam konteks artikel ini, 'agen' merujuk pada sistem otomatis yang dapat melakukan tugas secara mandiri untuk pengguna, seperti chatbot yang berinteraksi dengan pelanggan bisnis.

Mengapa OpenAI tidak merilis model transkripsi baru secara terbuka?

OpenAI tidak merilis model transkripsi baru secara terbuka karena model tersebut lebih besar dan kompleks dibandingkan Whisper, sehingga tidak cocok untuk dijalankan secara lokal.

Apa yang menjadi fokus utama OpenAI dalam pengembangan model suara dan transkripsi?

Fokus utama OpenAI dalam pengembangan model suara dan transkripsi adalah untuk meningkatkan akurasi dan pengalaman pengguna dalam interaksi suara.