MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.
Courtesy of TechCrunch

MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.

01 Feb 2025, 05.04 WIB
115 dibaca
Share
MLCommons, sebuah kelompok nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam 89 bahasa berbeda. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama dalam meningkatkan model suara untuk bahasa yang kurang sumber daya dan pengenalan suara yang lebih baik di berbagai aksen dan dialek.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini, terutama terkait dengan data yang bias. Sebagian besar rekaman dalam Unsupervised People’s Speech berasal dari penutur bahasa Inggris, sehingga AI yang dilatih dengan dataset ini mungkin kesulitan dalam memahami atau menghasilkan suara dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbaiki kualitas dataset ini, para pengembang diingatkan untuk berhati-hati dalam penggunaannya.
Sumber: https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

Pertanyaan Terkait

Q
Apa tujuan dari MLCommons dan Hugging Face dalam merilis dataset Unsupervised People’s Speech?
A
Tujuan dari MLCommons dan Hugging Face adalah untuk mendukung penelitian dan pengembangan dalam teknologi ucapan melalui rilis dataset Unsupervised People’s Speech.
Q
Berapa banyak jam rekaman suara yang terdapat dalam dataset tersebut?
A
Dataset tersebut mengandung lebih dari satu juta jam rekaman suara yang mencakup setidaknya 89 bahasa berbeda.
Q
Apa risiko yang mungkin ditimbulkan oleh dataset Unsupervised People’s Speech?
A
Risiko yang mungkin ditimbulkan termasuk data bias dan penggunaan rekaman suara tanpa izin dari individu yang bersangkutan.
Q
Siapa Ed Newton-Rex dan apa pandangannya tentang penggunaan data AI?
A
Ed Newton-Rex adalah CEO dari nonprofit Fairly Trained yang berpendapat bahwa pencipta konten seharusnya tidak dibebani untuk 'memilih keluar' dari dataset AI.
Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset Unsupervised People’s Speech?
A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.

Artikel Serupa

Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.TechCrunch
Teknologi
4 bulan lalu
87 dibaca

Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.TechCrunch
Teknologi
4 bulan lalu
143 dibaca

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.

4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum MenggunakannyaForbes
Teknologi
5 bulan lalu
261 dibaca

4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum Menggunakannya

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.TechCrunch
Teknologi
6 bulan lalu
113 dibaca

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
7 bulan lalu
161 dibaca

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
7 bulan lalu
180 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft