Courtesy of TechCrunch

MLCommons dan Hugging Face Rilis Dataset Suara Publik Raksasa dengan Risiko Bias

01 Feb 2025, 05.04 WIB

34 dibaca

MLCommons, sebuah organisasi nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam setidaknya 89 bahasa. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama untuk bahasa-bahasa selain Inggris, agar teknologi komunikasi dapat diakses oleh lebih banyak orang di seluruh dunia.

Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini. Salah satunya adalah data yang bias, karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris dengan aksen Amerika. Hal ini dapat menyebabkan sistem AI, seperti pengenalan suara, kesulitan dalam memahami bahasa Inggris yang diucapkan oleh penutur non-pribumi atau dalam menghasilkan suara sintetis dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbarui dan meningkatkan kualitas dataset ini, para pengembang diharapkan untuk berhati-hati dalam penggunaannya.

Referensi:
[1] https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

Analisis Ahli

Ed Newton-Rex

"Beban opt-out yang kompleks dan tidak efektif yang ditanggung oleh kreator data sangat tidak adil, apalagi ketika AI menggunakan karya mereka untuk bersaing secara langsung."

Analisis Kami

"Meskipun inisiatif menyediakan data besar untuk riset AI sangat positif, pengabaian terhadap masalah lisensi dan bias sangat berbahaya untuk kemajuan teknologi yang adil dan akurat. Pengembang harus lebih bertanggung jawab dengan mengevaluasi kualitas dan etika data sebelum digunakan secara komersial agar tidak memperkuat diskriminasi terhadap bahasa dan aksen minoritas."

Prediksi Kami

Di masa depan, akan semakin penting bagi pengembang untuk menerapkan filter dan prosedur etis dalam menggunakan dataset suara publik agar menghindari bias yang merugikan dan pelanggaran hak atas suara individu.

Pertanyaan Terkait

Apa tujuan dari dataset Unsupervised People’s Speech?

Tujuan dari dataset Unsupervised People’s Speech adalah untuk mendukung penelitian dan pengembangan dalam teknologi berbicara di berbagai bahasa.

Siapa yang berkolaborasi dalam proyek ini?

Proyek ini merupakan kolaborasi antara MLCommons dan Hugging Face.

Apa risiko yang terkait dengan penggunaan dataset ini?

Risiko yang terkait dengan penggunaan dataset ini termasuk data bias dan kemungkinan penggunaan rekaman tanpa persetujuan dari pembicara.

Mengapa data bias menjadi masalah dalam dataset ini?

Data bias menjadi masalah karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris, yang dapat mempengaruhi kinerja model AI.

Apa yang dilakukan MLCommons untuk memastikan kualitas dataset?

MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.