Courtesy of TechCrunch

MLCommons dan Hugging Face Rilis Dataset Suara Besar untuk Bahasa Global dengan Risiko Bias

01 Feb 2025, 05.04 WIB

44 dibaca

MLCommons, sebuah kelompok nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam 89 bahasa berbeda. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama dalam meningkatkan model suara untuk bahasa yang kurang sumber daya dan pengenalan suara yang lebih baik di berbagai aksen dan dialek.

Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini, terutama terkait dengan data yang bias. Sebagian besar rekaman dalam Unsupervised People’s Speech berasal dari penutur bahasa Inggris, sehingga AI yang dilatih dengan dataset ini mungkin kesulitan dalam memahami atau menghasilkan suara dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbaiki kualitas dataset ini, para pengembang diingatkan untuk berhati-hati dalam penggunaannya.

Referensi:
[1] https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

Analisis Ahli

Ed Newton-Rex

"Membebani kreator dengan opsi 'opt out' adalah tidak adil karena sulit, membingungkan, dan sering tidak efektif sehingga perlu pendekatan baru dalam perlindungan hak pencipta."

Analisis Kami

"Proyek data suara besar ini sangat penting untuk kemajuan AI dalam bahasa minimal sumber daya, tetapi tanpa kontrol kualitas dan etika yang ketat, justru akan memperkuat ketimpangan teknologi. Pengguna data harus lebih sadar dan aktif dalam mengelola isu bias dan hak suara para individu yang direkam."

Prediksi Kami

Jika tidak dikelola dengan hati-hati, bias dan masalah lisensi dapat memperlambat kemajuan serta menimbulkan kontroversi etika dalam pengembangan teknologi suara AI berbasis data besar.

Pertanyaan Terkait

Apa tujuan dari MLCommons dan Hugging Face dalam merilis dataset Unsupervised People’s Speech?

Tujuan dari MLCommons dan Hugging Face adalah untuk mendukung penelitian dan pengembangan dalam teknologi ucapan melalui rilis dataset Unsupervised People’s Speech.

Berapa banyak jam rekaman suara yang terdapat dalam dataset tersebut?

Dataset tersebut mengandung lebih dari satu juta jam rekaman suara yang mencakup setidaknya 89 bahasa berbeda.

Apa risiko yang mungkin ditimbulkan oleh dataset Unsupervised People’s Speech?

Risiko yang mungkin ditimbulkan termasuk data bias dan penggunaan rekaman suara tanpa izin dari individu yang bersangkutan.

Siapa Ed Newton-Rex dan apa pandangannya tentang penggunaan data AI?

Ed Newton-Rex adalah CEO dari nonprofit Fairly Trained yang berpendapat bahwa pencipta konten seharusnya tidak dibebani untuk 'memilih keluar' dari dataset AI.

Apa yang dilakukan MLCommons untuk memastikan kualitas dataset Unsupervised People’s Speech?

MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.