OpenAI meningkatkan model AI transkripsi dan penghasil suara.
Courtesy of TechCrunch

OpenAI meningkatkan model AI transkripsi dan penghasil suara.

21 Mar 2025, 00.00 WIB
190 dibaca
Share
Ikhtisar 15 Detik
  • OpenAI meluncurkan model suara dan transkripsi baru yang lebih akurat dan dapat disesuaikan.
  • Model gpt-4o-mini-tts memungkinkan pengembang untuk mengatur emosi dan konteks suara.
  • OpenAI tidak akan merilis model transkripsi baru secara terbuka karena kompleksitasnya.
OpenAI telah meluncurkan model baru untuk transkripsi dan penghasil suara yang lebih baik daripada versi sebelumnya. Model-model ini termasuk "gpt-4o-mini-tts" untuk teks ke suara dan "gpt-4o-transcribe" untuk suara ke teks. Model suara baru ini dapat berbicara dengan berbagai gaya, seperti suara ilmuwan gila atau suara tenang seperti guru mindfulness. Tujuannya adalah agar pengembang dapat menyesuaikan pengalaman suara sesuai dengan konteks, misalnya, suara yang terdengar menyesal dalam layanan pelanggan.
Model transkripsi baru ini juga lebih akurat dan dapat menangkap berbagai aksen dengan lebih baik, bahkan dalam lingkungan yang bising. Namun, OpenAI tidak akan merilis model-model ini secara terbuka seperti sebelumnya, karena model ini lebih besar dan kompleks daripada model sebelumnya, Whisper. Mereka ingin memastikan bahwa rilis model terbuka dilakukan dengan hati-hati dan sesuai kebutuhan pengguna.
Sumber: https://techcrunch.com/2025/03/20/openai-upgrades-its-transcription-and-voice-generating-ai-models/

Pertanyaan Terkait

Q
Apa tujuan dari model gpt-4o-mini-tts yang baru?
A
Tujuan dari model gpt-4o-mini-tts adalah untuk memberikan suara yang lebih realistis dan dapat disesuaikan, memungkinkan pengembang untuk mengatur cara berbicara dalam konteks yang berbeda.
Q
Bagaimana gpt-4o-transcribe berbeda dari model Whisper sebelumnya?
A
gpt-4o-transcribe lebih akurat dalam menangkap berbagai aksen dan berbicara dalam lingkungan yang bising dibandingkan dengan model Whisper sebelumnya.
Q
Apa yang dimaksud dengan 'agen' dalam konteks artikel ini?
A
Dalam konteks artikel ini, 'agen' merujuk pada sistem otomatis yang dapat melakukan tugas secara mandiri untuk pengguna, seperti chatbot yang berinteraksi dengan pelanggan bisnis.
Q
Mengapa OpenAI tidak merilis model transkripsi baru secara terbuka?
A
OpenAI tidak merilis model transkripsi baru secara terbuka karena model tersebut lebih besar dan kompleks dibandingkan Whisper, sehingga tidak cocok untuk dijalankan secara lokal.
Q
Apa yang menjadi fokus utama OpenAI dalam pengembangan model suara dan transkripsi?
A
Fokus utama OpenAI dalam pengembangan model suara dan transkripsi adalah untuk meningkatkan akurasi dan pengalaman pengguna dalam interaksi suara.

Artikel Serupa

OpenAI to Launch Highly Permissive Open Language Model This SummerTechCrunch
Teknologi
3 bulan lalu
147 dibaca

OpenAI to Launch Highly Permissive Open Language Model This Summer

OpenAI Luncurkan GPT-4.1: Model AI Terbaru untuk Rekayasa Perangkat LunakTechCrunch
Teknologi
3 bulan lalu
130 dibaca

OpenAI Luncurkan GPT-4.1: Model AI Terbaru untuk Rekayasa Perangkat Lunak

OpenAI berencana untuk merilis model bahasa AI 'terbuka' baru dalam beberapa bulan mendatang.TechCrunch
Teknologi
4 bulan lalu
108 dibaca

OpenAI berencana untuk merilis model bahasa AI 'terbuka' baru dalam beberapa bulan mendatang.

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.TechCrunch
Teknologi
4 bulan lalu
142 dibaca

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.

OpenAI Meluncurkan GPT-4.5 untuk ChatGPT—Ini Besar dan Memerlukan Komputasi yang Intensif.Wired
Teknologi
5 bulan lalu
73 dibaca

OpenAI Meluncurkan GPT-4.5 untuk ChatGPT—Ini Besar dan Memerlukan Komputasi yang Intensif.

OpenAI membawa model penalaran o1-nya ke API — untuk pengembang tertentu.TechCrunch
Teknologi
7 bulan lalu
56 dibaca

OpenAI membawa model penalaran o1-nya ke API — untuk pengembang tertentu.