Artikel - Wikimedia dan Kaggle Rilis Dataset Wikipedia untuk Pengembang AI

global - Wikipedia sedang berusaha mengurangi pengambilan data otomatis oleh pengembang kecerdasan buatan yang membebani server mereka. Untuk itu, Wikimedia Foundation telah bermitra dengan Kaggle untuk merilis dataset beta konten Wikipedia terstruktur dalam bahasa Inggris dan Prancis. Dataset ini dirancang dengan alur kerja pembelajaran mesin dalam pikiran, membuatnya lebih mudah diakses oleh pengembang AI.

Konten dalam dataset ini berlisensi terbuka dan mencakup ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel. Namun, dataset ini tidak menyertakan referensi atau elemen non-teks seperti file audio. Dengan menyediakan dataset yang terstruktur ini, Wikimedia berharap dapat mengurangi beban pada server mereka yang disebabkan oleh pengambilan data otomatis.

Wikimedia sudah memiliki perjanjian berbagi konten dengan Google dan Internet Archive, tetapi kemitraan dengan Kaggle ini diharapkan membuat data lebih mudah diakses oleh perusahaan kecil dan ilmuwan data independen. Kaggle sangat senang menjadi tuan rumah data ini dan berperan dalam menjaga data tetap dapat diakses, tersedia, dan berguna bagi komunitas pembelajaran mesin.

Pertanyaan Terkait

Apa tujuan dari dataset yang dirilis oleh Wikimedia Foundation?

Tujuan dari dataset yang dirilis oleh Wikimedia Foundation adalah untuk menyediakan alternatif yang lebih baik bagi pengembang AI daripada melakukan scraping konten Wikipedia.

Dengan siapa Wikimedia Foundation bekerja sama untuk merilis dataset ini?

Wikimedia Foundation bekerja sama dengan Kaggle untuk merilis dataset ini.

Apa saja jenis konten yang termasuk dalam dataset ini?

Jenis konten yang termasuk dalam dataset ini meliputi ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel.

Mengapa Wikimedia Foundation ingin mengurangi scraping dari platform mereka?

Wikimedia Foundation ingin mengurangi scraping dari platform mereka karena hal tersebut menyebabkan beban pada server Wikipedia.

Apa manfaat dari dataset ini bagi pengembang AI?

Manfaat dari dataset ini bagi pengembang AI adalah akses yang lebih mudah dan terstruktur untuk data artikel yang dapat digunakan untuk pelatihan dan analisis model.