Courtesy of TechCrunch

Mahasiswa Ciptakan Model AI Suara Podcast Terbuka Menyaingi Google

Menginformasikan tentang model AI baru yang dapat menghasilkan klip suara gaya podcast dan tantangan serta potensi yang terkait.

22 Apr 2025, 22.16 WIB

10 dibaca

Ikhtisar 15 Detik

Nari Labs telah mengembangkan model AI bernama Dia yang dapat menghasilkan suara sintetik.
Model Dia menawarkan kontrol lebih besar atas suara yang dihasilkan dan dapat melakukan kloning suara.
Pasar untuk teknologi suara sintetik terus berkembang dengan banyak investasi yang masuk ke dalam startup di bidang ini.

Korea Selatan - Pasar untuk alat sintesis suara sedang berkembang pesat, dengan banyak startup yang mendapatkan pendanaan besar dari investor. Dua mahasiswa sarjana dari Korea, Toby Kim dan rekannya, menciptakan model AI yang dapat menghasilkan klip gaya podcast. Mereka terinspirasi oleh NotebookLM dan ingin menawarkan lebih banyak kontrol atas suara yang dihasilkan serta kebebasan dalam naskah.

Model AI mereka, Dia, dilatih menggunakan program TPU Research Cloud dari Google dan memiliki 1,6 miliar parameter. Model ini dapat menghasilkan dialog dari naskah, memungkinkan pengguna menyesuaikan nada pembicara serta menambahkan isyarat nonverbal seperti batuk dan tawa. Dia tersedia di platform pengembangan AI Hugging Face dan GitHub, dan dapat menjalankan sebagian besar PC modern dengan setidaknya 10GB VRAM.

Meskipun kualitas suara yang dihasilkan cukup kompetitif, model ini memiliki sedikit perlindungan terhadap penyalahgunaan. Nari Labs, kelompok di balik model ini, tidak bertanggung jawab atas penyalahgunaan model untuk menipu atau melakukan kampanye ilegal. Mereka juga belum mengungkapkan data apa yang digunakan untuk melatih model ini, yang mungkin termasuk konten berhak cipta.

Referensi:
[1] https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

Analisis Ahli

Andrew Ng

"Pengembangan model suara sintetis dengan parameter besar menunjukan bagaimana sumber daya cloud dapat memberdayakan peneliti independen, tapi penting untuk mengimbanginya dengan kebijakan penggunaan yang jelas."

Fei-Fei Li

"Kontrol kebebasan dalam generasi suara sangat penting, namun tanpa data pelatihan yang transparan dan etika penggunaan, teknologi ini bisa menjadi pedang bermata dua."

Analisis Kami

"Walaupun prestasi mahasiswa tersebut sangat mengesankan, penyebaran model AI suara tanpa mekanisme perlindungan dan transparansi data berisiko menimbulkan penyalahgunaan yang serius. Keterbukaan model memang baik untuk inovasi, tapi tanpa regulasi ketat bisa memperparah masalah etika dan legal dalam teknologi suara sintetis."

Prediksi Kami

Dalam beberapa tahun ke depan, model suara sintetis seperti Dia akan semakin mudah diakses dan lebih canggih, berpotensi membuka berbagai aplikasi baru sekaligus menimbulkan tantangan besar terkait etika dan keamanan penggunaan suara palsu.