MLCommons dan Hugging Face Rilis Dataset Suara Publik Raksasa dengan Risiko Bias
Courtesy of TechCrunch

MLCommons dan Hugging Face Rilis Dataset Suara Publik Raksasa dengan Risiko Bias

01 Feb 2025, 05.04 WIB
136 dibaca
Share
MLCommons, sebuah organisasi nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam setidaknya 89 bahasa. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama untuk bahasa-bahasa selain Inggris, agar teknologi komunikasi dapat diakses oleh lebih banyak orang di seluruh dunia.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini. Salah satunya adalah data yang bias, karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris dengan aksen Amerika. Hal ini dapat menyebabkan sistem AI, seperti pengenalan suara, kesulitan dalam memahami bahasa Inggris yang diucapkan oleh penutur non-pribumi atau dalam menghasilkan suara sintetis dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbarui dan meningkatkan kualitas dataset ini, para pengembang diharapkan untuk berhati-hati dalam penggunaannya.
Referensi:
[1] https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

Analisis Kami

"Meskipun inisiatif menyediakan data besar untuk riset AI sangat positif, pengabaian terhadap masalah lisensi dan bias sangat berbahaya untuk kemajuan teknologi yang adil dan akurat. Pengembang harus lebih bertanggung jawab dengan mengevaluasi kualitas dan etika data sebelum digunakan secara komersial agar tidak memperkuat diskriminasi terhadap bahasa dan aksen minoritas."

Analisis Ahli

Ed Newton-Rex
"Beban opt-out yang kompleks dan tidak efektif yang ditanggung oleh kreator data sangat tidak adil, apalagi ketika AI menggunakan karya mereka untuk bersaing secara langsung."

Prediksi Kami

Di masa depan, akan semakin penting bagi pengembang untuk menerapkan filter dan prosedur etis dalam menggunakan dataset suara publik agar menghindari bias yang merugikan dan pelanggaran hak atas suara individu.

Pertanyaan Terkait

Q
Apa tujuan dari dataset Unsupervised People’s Speech?
A
Tujuan dari dataset Unsupervised People’s Speech adalah untuk mendukung penelitian dan pengembangan dalam teknologi berbicara di berbagai bahasa.
Q
Siapa yang berkolaborasi dalam proyek ini?
A
Proyek ini merupakan kolaborasi antara MLCommons dan Hugging Face.
Q
Apa risiko yang terkait dengan penggunaan dataset ini?
A
Risiko yang terkait dengan penggunaan dataset ini termasuk data bias dan kemungkinan penggunaan rekaman tanpa persetujuan dari pembicara.
Q
Mengapa data bias menjadi masalah dalam dataset ini?
A
Data bias menjadi masalah karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris, yang dapat mempengaruhi kinerja model AI.
Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset?
A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.

Artikel Serupa

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih AmanInterestingEngineering
Teknologi
4 bulan lalu
91 dibaca

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih Aman

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta MeningkatTechCrunch
Teknologi
5 bulan lalu
161 dibaca

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta Meningkat

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai KreatorTechCrunch
Teknologi
5 bulan lalu
265 dibaca

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai Kreator

OpenAI Tunda Peluncuran Voice Engine, Khawatir Risiko Penyalahgunaan Teknologi Suara KloningTechCrunch
Teknologi
6 bulan lalu
38 dibaca

OpenAI Tunda Peluncuran Voice Engine, Khawatir Risiko Penyalahgunaan Teknologi Suara Kloning

DeepSeek R1: Asisten AI Populer Tapi Berisiko Besar untuk Privasi dan SensorForbes
Teknologi
7 bulan lalu
214 dibaca

DeepSeek R1: Asisten AI Populer Tapi Berisiko Besar untuk Privasi dan Sensor

MLCommons dan Hugging Face Rilis Dataset Suara Besar untuk Bahasa Global dengan Risiko BiasTechCrunch
Teknologi
7 bulan lalu
147 dibaca

MLCommons dan Hugging Face Rilis Dataset Suara Besar untuk Bahasa Global dengan Risiko Bias