Courtesy of TechCrunch
Ikhtisar 15 Detik
- Konsumsi bandwidth di Wikimedia Commons meningkat drastis akibat aktivitas bot.
- Crawler AI sering mengabaikan batasan yang ditetapkan oleh file 'robots.txt'.
- Perusahaan teknologi seperti Cloudflare berusaha mengatasi masalah ini dengan solusi inovatif.
Wikimedia Foundation, organisasi yang mengelola Wikipedia dan proyek pengetahuan lainnya, melaporkan bahwa penggunaan bandwidth untuk mengunduh multimedia dari Wikimedia Commons meningkat 50% sejak Januari 2024. Peningkatan ini bukan disebabkan oleh permintaan manusia, tetapi oleh bot otomatis yang mengumpulkan data untuk melatih model AI. Meskipun hanya 35% dari total kunjungan halaman berasal dari bot, hampir dua pertiga (65%) dari lalu lintas yang paling mahal berasal dari mereka. Ini terjadi karena bot cenderung mengakses lebih banyak halaman, termasuk yang kurang populer, yang lebih mahal untuk dilayani.
Wikimedia menjelaskan bahwa konten yang sering diakses disimpan lebih dekat kepada pengguna, sementara konten yang jarang diakses disimpan lebih jauh di pusat data, yang lebih mahal untuk diakses. Hal ini membuat tim keandalan situs Wikimedia harus menghabiskan banyak waktu dan sumber daya untuk memblokir bot agar tidak mengganggu pengguna biasa. Selain itu, biaya cloud yang harus ditanggung juga semakin meningkat.
Fenomena ini merupakan bagian dari tren yang mengancam keberadaan internet terbuka. Beberapa perusahaan teknologi, seperti Cloudflare, mencoba mengatasi masalah ini dengan cara baru, tetapi ini adalah permainan kucing dan tikus yang dapat memaksa banyak penerbit untuk menggunakan login dan paywall, yang akan merugikan pengguna internet secara keseluruhan.
Pertanyaan Terkait
Q
Apa yang menyebabkan lonjakan konsumsi bandwidth di Wikimedia Commons?A
Lonjakan konsumsi bandwidth di Wikimedia Commons disebabkan oleh scraper otomatis yang mencari data untuk melatih model AI.Q
Berapa persentase lalu lintas mahal yang berasal dari bot?A
Sekitar 65% dari lalu lintas yang paling mahal berasal dari bot.Q
Mengapa konten yang jarang diakses lebih mahal untuk disajikan?A
Konten yang jarang diakses lebih mahal karena harus diambil dari pusat data inti, yang lebih mahal untuk diakses.Q
Apa yang dilakukan Wikimedia Foundation untuk mengatasi masalah ini?A
Wikimedia Foundation menghabiskan banyak waktu dan sumber daya untuk memblokir crawler agar tidak mengganggu pengguna biasa.Q
Apa dampak dari crawler AI terhadap infrastruktur internet terbuka?A
Crawler AI meningkatkan permintaan bandwidth, yang dapat mengancam keberadaan internet terbuka.