OpenAI Hadirkan Model Suara dan Transkripsi AI Lebih Realistis dan Akurat
Courtesy of TechCrunch

OpenAI Hadirkan Model Suara dan Transkripsi AI Lebih Realistis dan Akurat

21 Mar 2025, 00.00 WIB
195 dibaca
Share
Ikhtisar 15 Detik
  • OpenAI meluncurkan model suara dan transkripsi baru yang lebih akurat dan dapat disesuaikan.
  • Model gpt-4o-mini-tts memungkinkan pengembang untuk mengatur emosi dan konteks suara.
  • OpenAI tidak akan merilis model transkripsi baru secara terbuka karena kompleksitasnya.
OpenAI telah meluncurkan model baru untuk transkripsi dan penghasil suara yang lebih baik daripada versi sebelumnya. Model-model ini termasuk "gpt-4o-mini-tts" untuk teks ke suara dan "gpt-4o-transcribe" untuk suara ke teks. Model suara baru ini dapat berbicara dengan berbagai gaya, seperti suara ilmuwan gila atau suara tenang seperti guru mindfulness. Tujuannya adalah agar pengembang dapat menyesuaikan pengalaman suara sesuai dengan konteks, misalnya, suara yang terdengar menyesal dalam layanan pelanggan.
Model transkripsi baru ini juga lebih akurat dan dapat menangkap berbagai aksen dengan lebih baik, bahkan dalam lingkungan yang bising. Namun, OpenAI tidak akan merilis model-model ini secara terbuka seperti sebelumnya, karena model ini lebih besar dan kompleks daripada model sebelumnya, Whisper. Mereka ingin memastikan bahwa rilis model terbuka dilakukan dengan hati-hati dan sesuai kebutuhan pengguna.
--------------------
Analisis Kami: Kemampuan gpt-4o-mini-tts untuk mengembangkan suara dengan emosi yang dapat disesuaikan membuka peluang baru dalam interaksi manusia-mesin yang jauh lebih alami dan manusiawi dibandingkan model sebelumnya. Namun, ketidaktersediaan model transkripsi secara terbuka berpotensi membatasi inovasi di komunitas pengembang independen dan penelitian terbuka.
--------------------
Analisis Ahli:
Olivier Godemont: Agen-agen bertenaga suara yang semakin banyak akan membantu bisnis membangun interaksi otomatis yang lebih natural dan efisien.
Jeff Haris: Model baru telah mampu mengurangi kesalahan transkripsi dan menghilangkan masalah halusinasi yang kerap muncul di model lama seperti Whisper.
--------------------
What's Next: Model AI dengan kemampuan suara dan transkripsi yang lebih baik serta dapat dikendalikan secara emosional akan semakin banyak diadopsi, sehingga agen otomatis berbasis suara akan menjadi lebih umum dalam pelayanan pelanggan dan aplikasi bisnis lainnya.
Referensi:
[1] https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

Pertanyaan Terkait

Q
Apa tujuan dari model gpt-4o-mini-tts yang baru?
A
Tujuan dari model gpt-4o-mini-tts adalah untuk memberikan suara yang lebih realistis dan dapat disesuaikan, memungkinkan pengembang untuk mengatur cara berbicara dalam konteks yang berbeda.
Q
Bagaimana gpt-4o-transcribe berbeda dari model Whisper sebelumnya?
A
gpt-4o-transcribe lebih akurat dalam menangkap berbagai aksen dan berbicara dalam lingkungan yang bising dibandingkan dengan model Whisper sebelumnya.
Q
Apa yang dimaksud dengan 'agen' dalam konteks artikel ini?
A
Dalam konteks artikel ini, 'agen' merujuk pada sistem otomatis yang dapat melakukan tugas secara mandiri untuk pengguna, seperti chatbot yang berinteraksi dengan pelanggan bisnis.
Q
Mengapa OpenAI tidak merilis model transkripsi baru secara terbuka?
A
OpenAI tidak merilis model transkripsi baru secara terbuka karena model tersebut lebih besar dan kompleks dibandingkan Whisper, sehingga tidak cocok untuk dijalankan secara lokal.
Q
Apa yang menjadi fokus utama OpenAI dalam pengembangan model suara dan transkripsi?
A
Fokus utama OpenAI dalam pengembangan model suara dan transkripsi adalah untuk meningkatkan akurasi dan pengalaman pengguna dalam interaksi suara.

Artikel Serupa

OpenAI Luncurkan Model AI Terbuka untuk Saingi Laboratorium China dan MetaTechCrunch
Teknologi
12 hari lalu
79 dibaca

OpenAI Luncurkan Model AI Terbuka untuk Saingi Laboratorium China dan Meta

Mistral Luncurkan Voxtral, Model Suara Terbuka untuk Bisnis dengan Harga TerjangkauTechCrunch
Teknologi
1 bulan lalu
13 dibaca

Mistral Luncurkan Voxtral, Model Suara Terbuka untuk Bisnis dengan Harga Terjangkau

OpenAI Rilis GPT-4.1 di ChatGPT dengan Kecepatan dan Keunggulan CodingTechCrunch
Teknologi
3 bulan lalu
142 dibaca

OpenAI Rilis GPT-4.1 di ChatGPT dengan Kecepatan dan Keunggulan Coding

OpenAI Siap Rilis Model Bahasa Terbuka Baru dengan Lisensi Bebas Tahun IniTechCrunch
Teknologi
3 bulan lalu
214 dibaca

OpenAI Siap Rilis Model Bahasa Terbuka Baru dengan Lisensi Bebas Tahun Ini

OpenAI Siapkan Model Bahasa Terbuka Berfitur Reasoning dengan Lisensi BebasTechCrunch
Teknologi
3 bulan lalu
151 dibaca

OpenAI Siapkan Model Bahasa Terbuka Berfitur Reasoning dengan Lisensi Bebas

OpenAI Rilis GPT-4.1, Model AI Coding dengan Jendela Konteks Super BesarTechCrunch
Teknologi
4 bulan lalu
137 dibaca

OpenAI Rilis GPT-4.1, Model AI Coding dengan Jendela Konteks Super Besar

OpenAI Siap Rilis Model Bahasa Terbuka Pertama Sejak GPT-2, Tantang Pesaing GlobalTechCrunch
Teknologi
4 bulan lalu
113 dibaca

OpenAI Siap Rilis Model Bahasa Terbuka Pertama Sejak GPT-2, Tantang Pesaing Global