MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.
Courtesy of TechCrunch

MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.

01 Feb 2025, 05.04 WIB
95 dibaca
Share
MLCommons, sebuah kelompok nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam 89 bahasa berbeda. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama dalam meningkatkan model suara untuk bahasa yang kurang sumber daya dan pengenalan suara yang lebih baik di berbagai aksen dan dialek.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini, terutama terkait dengan data yang bias. Sebagian besar rekaman dalam Unsupervised People’s Speech berasal dari penutur bahasa Inggris, sehingga AI yang dilatih dengan dataset ini mungkin kesulitan dalam memahami atau menghasilkan suara dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbaiki kualitas dataset ini, para pengembang diingatkan untuk berhati-hati dalam penggunaannya.

Pertanyaan Terkait

Q
Apa tujuan dari MLCommons dan Hugging Face dalam merilis dataset Unsupervised People’s Speech?
A
Tujuan dari MLCommons dan Hugging Face adalah untuk mendukung penelitian dan pengembangan dalam teknologi ucapan melalui rilis dataset Unsupervised People’s Speech.
Q
Berapa banyak jam rekaman suara yang terdapat dalam dataset tersebut?
A
Dataset tersebut mengandung lebih dari satu juta jam rekaman suara yang mencakup setidaknya 89 bahasa berbeda.
Q
Apa risiko yang mungkin ditimbulkan oleh dataset Unsupervised People’s Speech?
A
Risiko yang mungkin ditimbulkan termasuk data bias dan penggunaan rekaman suara tanpa izin dari individu yang bersangkutan.
Q
Siapa Ed Newton-Rex dan apa pandangannya tentang penggunaan data AI?
A
Ed Newton-Rex adalah CEO dari nonprofit Fairly Trained yang berpendapat bahwa pencipta konten seharusnya tidak dibebani untuk 'memilih keluar' dari dataset AI.
Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset Unsupervised People’s Speech?
A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.

Artikel Serupa

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.TechCrunch
Teknologi
2 bulan lalu
136 dibaca

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.TechCrunch
Teknologi
3 bulan lalu
121 dibaca

Setahun kemudian, OpenAI masih belum merilis alat kloning suaranya.

4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum MenggunakannyaForbes
Teknologi
4 bulan lalu
202 dibaca

4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum Menggunakannya

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.TechCrunch
Teknologi
4 bulan lalu
71 dibaca

MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
5 bulan lalu
148 dibaca

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
6 bulan lalu
161 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft