Wikimedia dan Kaggle Rilis Dataset Wikipedia untuk Pengembang AI
Courtesy of TheVerge

Wikimedia dan Kaggle Rilis Dataset Wikipedia untuk Pengembang AI

Menyediakan dataset Wikipedia yang terstruktur dan mudah diakses untuk pengembang AI guna mengurangi beban pada server Wikipedia.

TheVerge
DariĀ TheVerge
17 Apr 2025, 17.07 WIB
55 dibaca
Share
Ikhtisar 15 Detik
  • Wikimedia Foundation merilis dataset untuk mendukung pengembang AI.
  • Dataset ini dirancang untuk memudahkan akses dan penggunaan data Wikipedia.
  • Kerja sama dengan Kaggle bertujuan untuk mengurangi beban server akibat scraping.
global - Wikipedia sedang berusaha mengurangi pengambilan data otomatis oleh pengembang kecerdasan buatan yang membebani server mereka. Untuk itu, Wikimedia Foundation telah bermitra dengan Kaggle untuk merilis dataset beta konten Wikipedia terstruktur dalam bahasa Inggris dan Prancis. Dataset ini dirancang dengan alur kerja pembelajaran mesin dalam pikiran, membuatnya lebih mudah diakses oleh pengembang AI.
Konten dalam dataset ini berlisensi terbuka dan mencakup ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel. Namun, dataset ini tidak menyertakan referensi atau elemen non-teks seperti file audio. Dengan menyediakan dataset yang terstruktur ini, Wikimedia berharap dapat mengurangi beban pada server mereka yang disebabkan oleh pengambilan data otomatis.
Wikimedia sudah memiliki perjanjian berbagi konten dengan Google dan Internet Archive, tetapi kemitraan dengan Kaggle ini diharapkan membuat data lebih mudah diakses oleh perusahaan kecil dan ilmuwan data independen. Kaggle sangat senang menjadi tuan rumah data ini dan berperan dalam menjaga data tetap dapat diakses, tersedia, dan berguna bagi komunitas pembelajaran mesin.

Pertanyaan Terkait

Q
Apa tujuan dari dataset yang dirilis oleh Wikimedia Foundation?
A
Tujuan dari dataset yang dirilis oleh Wikimedia Foundation adalah untuk menyediakan alternatif yang lebih baik bagi pengembang AI daripada melakukan scraping konten Wikipedia.
Q
Dengan siapa Wikimedia Foundation bekerja sama untuk merilis dataset ini?
A
Wikimedia Foundation bekerja sama dengan Kaggle untuk merilis dataset ini.
Q
Apa saja jenis konten yang termasuk dalam dataset ini?
A
Jenis konten yang termasuk dalam dataset ini meliputi ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel.
Q
Mengapa Wikimedia Foundation ingin mengurangi scraping dari platform mereka?
A
Wikimedia Foundation ingin mengurangi scraping dari platform mereka karena hal tersebut menyebabkan beban pada server Wikipedia.
Q
Apa manfaat dari dataset ini bagi pengembang AI?
A
Manfaat dari dataset ini bagi pengembang AI adalah akses yang lebih mudah dan terstruktur untuk data artikel yang dapat digunakan untuk pelatihan dan analisis model.

Artikel Serupa

Wikipedia Gunakan AI untuk Mendukung Editor dan Sukarelawan, Bukan MenggantikanTechCrunch
Teknologi
1 bulan lalu
109 dibaca

Wikipedia Gunakan AI untuk Mendukung Editor dan Sukarelawan, Bukan Menggantikan

Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.TechCrunch
Teknologi
2 bulan lalu
79 dibaca

Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.

AI crawlers menyebabkan permintaan bandwidth Wikimedia Commons meningkat 50%.TechCrunch
Teknologi
2 bulan lalu
47 dibaca

AI crawlers menyebabkan permintaan bandwidth Wikimedia Commons meningkat 50%.

Perusahaan Teknologi dan Perusahaan Jurnalisme Bergabung Kekuatan, TerkadangForbes
Teknologi
4 bulan lalu
86 dibaca

Perusahaan Teknologi dan Perusahaan Jurnalisme Bergabung Kekuatan, Terkadang

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
6 bulan lalu
162 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI TiongkokTechCrunch
Teknologi
6 bulan lalu
197 dibaca

Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI Tiongkok