MLCommons dan Hugging Face Rilis Dataset Suara Besar untuk Bahasa Global dengan Risiko Bias
Courtesy of TechCrunch

MLCommons dan Hugging Face Rilis Dataset Suara Besar untuk Bahasa Global dengan Risiko Bias

01 Feb 2025, 05.04 WIB
148 dibaca
Share
MLCommons, sebuah kelompok nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam 89 bahasa berbeda. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama dalam meningkatkan model suara untuk bahasa yang kurang sumber daya dan pengenalan suara yang lebih baik di berbagai aksen dan dialek.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini, terutama terkait dengan data yang bias. Sebagian besar rekaman dalam Unsupervised People’s Speech berasal dari penutur bahasa Inggris, sehingga AI yang dilatih dengan dataset ini mungkin kesulitan dalam memahami atau menghasilkan suara dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbaiki kualitas dataset ini, para pengembang diingatkan untuk berhati-hati dalam penggunaannya.
Referensi:
[1] https://techcrunch.com/2025/01/31/mlcommons-and-hugging-face-team-up-to-release-massive-speech-data-set-for-ai-research/

Analisis Kami

"Proyek data suara besar ini sangat penting untuk kemajuan AI dalam bahasa minimal sumber daya, tetapi tanpa kontrol kualitas dan etika yang ketat, justru akan memperkuat ketimpangan teknologi. Pengguna data harus lebih sadar dan aktif dalam mengelola isu bias dan hak suara para individu yang direkam."

Analisis Ahli

Ed Newton-Rex
"Membebani kreator dengan opsi 'opt out' adalah tidak adil karena sulit, membingungkan, dan sering tidak efektif sehingga perlu pendekatan baru dalam perlindungan hak pencipta."

Prediksi Kami

Jika tidak dikelola dengan hati-hati, bias dan masalah lisensi dapat memperlambat kemajuan serta menimbulkan kontroversi etika dalam pengembangan teknologi suara AI berbasis data besar.

Pertanyaan Terkait

Q
Apa tujuan dari MLCommons dan Hugging Face dalam merilis dataset Unsupervised People’s Speech?
A
Tujuan dari MLCommons dan Hugging Face adalah untuk mendukung penelitian dan pengembangan dalam teknologi ucapan melalui rilis dataset Unsupervised People’s Speech.
Q
Berapa banyak jam rekaman suara yang terdapat dalam dataset tersebut?
A
Dataset tersebut mengandung lebih dari satu juta jam rekaman suara yang mencakup setidaknya 89 bahasa berbeda.
Q
Apa risiko yang mungkin ditimbulkan oleh dataset Unsupervised People’s Speech?
A
Risiko yang mungkin ditimbulkan termasuk data bias dan penggunaan rekaman suara tanpa izin dari individu yang bersangkutan.
Q
Siapa Ed Newton-Rex dan apa pandangannya tentang penggunaan data AI?
A
Ed Newton-Rex adalah CEO dari nonprofit Fairly Trained yang berpendapat bahwa pencipta konten seharusnya tidak dibebani untuk 'memilih keluar' dari dataset AI.
Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset Unsupervised People’s Speech?
A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.

Artikel Serupa

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih AmanInterestingEngineering
Teknologi
4 bulan lalu
91 dibaca

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih Aman

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta MeningkatTechCrunch
Teknologi
5 bulan lalu
161 dibaca

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta Meningkat

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai KreatorTechCrunch
Teknologi
5 bulan lalu
265 dibaca

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai Kreator

OpenAI Tunda Peluncuran Voice Engine, Khawatir Risiko Penyalahgunaan Teknologi Suara KloningTechCrunch
Teknologi
6 bulan lalu
38 dibaca

OpenAI Tunda Peluncuran Voice Engine, Khawatir Risiko Penyalahgunaan Teknologi Suara Kloning

DeepSeek R1: Asisten AI Populer Tapi Berisiko Besar untuk Privasi dan SensorForbes
Teknologi
7 bulan lalu
214 dibaca

DeepSeek R1: Asisten AI Populer Tapi Berisiko Besar untuk Privasi dan Sensor

MLCommons dan Hugging Face Rilis Dataset Suara Publik Raksasa dengan Risiko BiasTechCrunch
Teknologi
7 bulan lalu
137 dibaca

MLCommons dan Hugging Face Rilis Dataset Suara Publik Raksasa dengan Risiko Bias