Courtesy of TheVerge

Wikimedia Luncurkan Dataset Khusus untuk Dukung Developer AI Tanpa Skrapping

Menyediakan dataset Wikipedia yang terstruktur dan mudah diakses untuk pengembang AI guna mengurangi beban pada server Wikipedia.

17 Apr 2025, 17.07 WIB

242 dibaca

Ikhtisar 15 Detik

Wikimedia Foundation merilis dataset untuk mendukung pengembang AI.
Dataset ini dirancang untuk memudahkan akses dan penggunaan data Wikipedia.
Kerja sama dengan Kaggle bertujuan untuk mengurangi beban server akibat scraping.

global - Wikipedia sedang berusaha mengurangi pengambilan data otomatis oleh pengembang kecerdasan buatan yang membebani server mereka. Untuk itu, Wikimedia Foundation telah bermitra dengan Kaggle untuk merilis dataset beta konten Wikipedia terstruktur dalam bahasa Inggris dan Prancis. Dataset ini dirancang dengan alur kerja pembelajaran mesin dalam pikiran, membuatnya lebih mudah diakses oleh pengembang AI.

Konten dalam dataset ini berlisensi terbuka dan mencakup ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel. Namun, dataset ini tidak menyertakan referensi atau elemen non-teks seperti file audio. Dengan menyediakan dataset yang terstruktur ini, Wikimedia berharap dapat mengurangi beban pada server mereka yang disebabkan oleh pengambilan data otomatis.

Wikimedia sudah memiliki perjanjian berbagi konten dengan Google dan Internet Archive, tetapi kemitraan dengan Kaggle ini diharapkan membuat data lebih mudah diakses oleh perusahaan kecil dan ilmuwan data independen. Kaggle sangat senang menjadi tuan rumah data ini dan berperan dalam menjaga data tetap dapat diakses, tersedia, dan berguna bagi komunitas pembelajaran mesin.

Referensi:
[1] https://theverge.com/news/650467/wikipedia-kaggle-partnership-ai-dataset-machine-learning

Analisis Ahli

Yoshua Bengio

"Langkah untuk menyediakan dataset yang sudah terstruktur dan mudah diakses oleh komunitas AI sangat penting untuk mendorong riset yang lebih etis dan efisien dalam pengembangan model bahasa dan AI."

Analisis Kami

"Langkah Wikimedia ini merupakan strategi cerdas untuk melindungi infrastruktur mereka sekaligus menjaga kelangsungan sumber pengetahuan gratis. Namun, kesiapan komunitas AI dalam beradaptasi dengan dataset resmi ini harus didorong agar transisi ini berjalan efektif dan tidak menghambat inovasi."

Prediksi Kami

Dalam waktu dekat, penggunaan dataset terstruktur ini akan meningkat di kalangan pengembang AI kecil hingga menengah, sehingga aktivitas scraping yang membebani server Wikipedia akan berkurang drastis.

Pertanyaan Terkait

Apa tujuan dari dataset yang dirilis oleh Wikimedia Foundation?

Tujuan dari dataset yang dirilis oleh Wikimedia Foundation adalah untuk menyediakan alternatif yang lebih baik bagi pengembang AI daripada melakukan scraping konten Wikipedia.

Dengan siapa Wikimedia Foundation bekerja sama untuk merilis dataset ini?

Wikimedia Foundation bekerja sama dengan Kaggle untuk merilis dataset ini.

Apa saja jenis konten yang termasuk dalam dataset ini?

Jenis konten yang termasuk dalam dataset ini meliputi ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel.

Mengapa Wikimedia Foundation ingin mengurangi scraping dari platform mereka?

Wikimedia Foundation ingin mengurangi scraping dari platform mereka karena hal tersebut menyebabkan beban pada server Wikipedia.

Apa manfaat dari dataset ini bagi pengembang AI?

Manfaat dari dataset ini bagi pengembang AI adalah akses yang lebih mudah dan terstruktur untuk data artikel yang dapat digunakan untuk pelatihan dan analisis model.