Wikimedia Luncurkan Dataset Khusus untuk Dukung Developer AI Tanpa Skrapping
Courtesy of TheVerge

Wikimedia Luncurkan Dataset Khusus untuk Dukung Developer AI Tanpa Skrapping

Menyediakan dataset Wikipedia yang terstruktur dan mudah diakses untuk pengembang AI guna mengurangi beban pada server Wikipedia.

17 Apr 2025, 17.07 WIB
81 dibaca
Share
Ikhtisar 15 Detik
  • Wikimedia Foundation merilis dataset untuk mendukung pengembang AI.
  • Dataset ini dirancang untuk memudahkan akses dan penggunaan data Wikipedia.
  • Kerja sama dengan Kaggle bertujuan untuk mengurangi beban server akibat scraping.
global - Wikipedia sedang berusaha mengurangi pengambilan data otomatis oleh pengembang kecerdasan buatan yang membebani server mereka. Untuk itu, Wikimedia Foundation telah bermitra dengan Kaggle untuk merilis dataset beta konten Wikipedia terstruktur dalam bahasa Inggris dan Prancis. Dataset ini dirancang dengan alur kerja pembelajaran mesin dalam pikiran, membuatnya lebih mudah diakses oleh pengembang AI.
Konten dalam dataset ini berlisensi terbuka dan mencakup ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel. Namun, dataset ini tidak menyertakan referensi atau elemen non-teks seperti file audio. Dengan menyediakan dataset yang terstruktur ini, Wikimedia berharap dapat mengurangi beban pada server mereka yang disebabkan oleh pengambilan data otomatis.
Wikimedia sudah memiliki perjanjian berbagi konten dengan Google dan Internet Archive, tetapi kemitraan dengan Kaggle ini diharapkan membuat data lebih mudah diakses oleh perusahaan kecil dan ilmuwan data independen. Kaggle sangat senang menjadi tuan rumah data ini dan berperan dalam menjaga data tetap dapat diakses, tersedia, dan berguna bagi komunitas pembelajaran mesin.
--------------------
Analisis Kami: Langkah Wikimedia ini merupakan strategi cerdas untuk melindungi infrastruktur mereka sekaligus menjaga kelangsungan sumber pengetahuan gratis. Namun, kesiapan komunitas AI dalam beradaptasi dengan dataset resmi ini harus didorong agar transisi ini berjalan efektif dan tidak menghambat inovasi.
--------------------
Analisis Ahli:
Yoshua Bengio: Langkah untuk menyediakan dataset yang sudah terstruktur dan mudah diakses oleh komunitas AI sangat penting untuk mendorong riset yang lebih etis dan efisien dalam pengembangan model bahasa dan AI.
--------------------
What's Next: Dalam waktu dekat, penggunaan dataset terstruktur ini akan meningkat di kalangan pengembang AI kecil hingga menengah, sehingga aktivitas scraping yang membebani server Wikipedia akan berkurang drastis.
Referensi:
[1] https://theverge.com/news/650467/wikipedia-kaggle-partnership-ai-dataset-machine-learning

Pertanyaan Terkait

Q
Apa tujuan dari dataset yang dirilis oleh Wikimedia Foundation?
A
Tujuan dari dataset yang dirilis oleh Wikimedia Foundation adalah untuk menyediakan alternatif yang lebih baik bagi pengembang AI daripada melakukan scraping konten Wikipedia.
Q
Dengan siapa Wikimedia Foundation bekerja sama untuk merilis dataset ini?
A
Wikimedia Foundation bekerja sama dengan Kaggle untuk merilis dataset ini.
Q
Apa saja jenis konten yang termasuk dalam dataset ini?
A
Jenis konten yang termasuk dalam dataset ini meliputi ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel.
Q
Mengapa Wikimedia Foundation ingin mengurangi scraping dari platform mereka?
A
Wikimedia Foundation ingin mengurangi scraping dari platform mereka karena hal tersebut menyebabkan beban pada server Wikipedia.
Q
Apa manfaat dari dataset ini bagi pengembang AI?
A
Manfaat dari dataset ini bagi pengembang AI adalah akses yang lebih mudah dan terstruktur untuk data artikel yang dapat digunakan untuk pelatihan dan analisis model.

Artikel Serupa

Cloudflare Blokir AI Web Crawler untuk Lindungi Konten dan Terapkan Bayar Per AksesTheVerge
Teknologi
1 bulan lalu
16 dibaca

Cloudflare Blokir AI Web Crawler untuk Lindungi Konten dan Terapkan Bayar Per Akses

Wikipedia Tangguhkan Eksperimen AI Meringkas Artikel Karena Kekhawatiran KredibilitasTechCrunch
Teknologi
2 bulan lalu
78 dibaca

Wikipedia Tangguhkan Eksperimen AI Meringkas Artikel Karena Kekhawatiran Kredibilitas

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan TransparanTechCrunch
Teknologi
2 bulan lalu
230 dibaca

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Serbuan Bot Mengganggu Situs Ilmiah dan Pengembangan AI GeneratifNatureMagazine
Teknologi
2 bulan lalu
45 dibaca

Serbuan Bot Mengganggu Situs Ilmiah dan Pengembangan AI Generatif

Strategi AI Baru Wikipedia: Membantu Editor, Bukan Menggantikan MerekaTechCrunch
Teknologi
3 bulan lalu
123 dibaca

Strategi AI Baru Wikipedia: Membantu Editor, Bukan Menggantikan Mereka

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta MeningkatTechCrunch
Teknologi
4 bulan lalu
93 dibaca

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta Meningkat