Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Menyampaikan kekhawatiran dan kritik terhadap penggunaan platform benchmarking crowdsourced oleh laboratorium AI.

22 Apr 2025, 19.30 WIB
56 dibaca
Share
Ikhtisar 15 Detik
  • Benchmarking crowdsourced memiliki kelemahan dalam validitas dan dapat digunakan untuk klaim yang berlebihan.
  • Pentingnya kompensasi bagi evaluator model untuk menghindari praktik eksploitasi.
  • Benchmark harus dinamis dan disesuaikan dengan berbagai penggunaan spesifik untuk meningkatkan relevansi.
Amerika Serikat - Laboratorium AI seperti OpenAI, Google, dan Meta semakin sering menggunakan platform benchmarking crowdsourced seperti Chatbot Arena untuk mengevaluasi model mereka. Namun, beberapa ahli mengkritik pendekatan ini dari perspektif etis dan akademis. Emily Bender dari University of Washington menyatakan bahwa benchmark harus memiliki validitas konstruksi yang jelas, yang menurutnya tidak dimiliki oleh Chatbot Arena.
Baca juga: Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer
Asmelash Teka Hadgu dari Lesan dan Kristine Gloria dari Aspen Institute menyoroti bahwa benchmark harus dinamis dan evaluator harus diberi kompensasi. Hadgu juga mengkritik Meta yang pernah menyesuaikan model Maverick untuk mendapatkan skor tinggi di Chatbot Arena, tetapi kemudian merilis versi yang berkinerja lebih buruk. Gloria menambahkan bahwa proses benchmarking crowdsourced berharga tetapi tidak boleh menjadi satu-satunya metrik untuk evaluasi.
Matt Frederikson dari Gray Swan AI dan Wei-Lin Chiang dari UC Berkeley juga setuju bahwa benchmark publik tidak cukup dan harus dilengkapi dengan evaluasi internal dan tim red algoritmik. Chiang menegaskan bahwa insiden ketidaksesuaian benchmark bukan karena desain Chatbot Arena, tetapi karena laboratorium salah menafsirkan kebijakannya. LM Arena telah memperbarui kebijakannya untuk mencegah ketidaksesuaian di masa depan.
--------------------
Analisis Kami: Metode crowdsourced benchmarking saat ini terlalu mengandalkan preferensi subjektif tanpa validasi ilmiah yang memadai, sehingga rentan dimanipulasi dan tidak mencerminkan kualitas sebenarnya dari model AI. Industri AI harus segera beralih ke sistem evaluasi yang lebih transparan dan berbasis domain yang melibatkan profesional berkompeten agar hasilnya bermakna dan etis.
--------------------
Analisis Ahli:
Emily Bender: Mengkritik kurangnya validitas konstruksi dalam metode voting Chatbot Arena dan keberatan bahwa preferensi yang diukur tidak didukung secara ilmiah.
Asmelash Teka Hadgu: Menyatakan benchmarking saat ini disalahgunakan untuk promosi berlebihan dan mengusulkan model evaluasi yang terdistribusi dan spesifik untuk tiap bidang.
Kristine Gloria: Menekankan pentingnya kompensasi terhadap evaluator untuk menghindari eksploitasi yang sama seperti di industri pelabelan data.
Matt Frederikson: Mengakui nilai crowdsourced namun menegaskan kebutuhan evaluasi tertutup dengan keahlian khusus dan komunikasi hasil yang jelas.
Wei-Lin Chiang: Membela model Chatbot Arena sebagai ruang terbuka untuk preferensi komunitas, dan mengaku telah memperbaiki kebijakan untuk menghindari penyimpangan.
--------------------
Baca juga: Meta Hadapi Tantangan Berat di LlamaCon untuk Bangkitkan Ekosistem AI Terbuka
What's Next: Ke depan, akan muncul lebih banyak platform benchmarking yang mencoba menyediakan evaluasi yang lebih adil, terstandarisasi, dan berbayar untuk para evaluator, serta integrasi metrik evaluasi yang lebih kompleks selain voting sederhana.
Referensi:
[1] https://techcrunch.com/2025/04/22/crowdsourced-ai-benchmarks-have-serious-flaws-some-experts-say/

Pertanyaan Terkait

Q
Apa masalah utama yang diangkat oleh Emily Bender terkait dengan Chatbot Arena?
A
Emily Bender mengkritik bahwa Chatbot Arena tidak menunjukkan bahwa pemungutan suara untuk satu output dibandingkan yang lain benar-benar berkorelasi dengan preferensi.
Q
Mengapa Asmelash Teka Hadgu menganggap benchmark seperti Chatbot Arena dapat digunakan untuk klaim yang berlebihan?
A
Asmelash Teka Hadgu berpendapat bahwa laboratorium AI dapat 'mengkooptasi' benchmark untuk mempromosikan klaim yang berlebihan.
Q
Apa yang disarankan Kristine Gloria terkait dengan kompensasi bagi evaluator model?
A
Kristine Gloria menyarankan agar evaluator model harus diberi kompensasi untuk menghindari praktik eksploitasi yang terjadi di industri pelabelan data.
Q
Mengapa Matt Frederikson percaya bahwa benchmark publik tidak cukup?
A
Matt Frederikson percaya bahwa evaluasi yang dilakukan secara privat dan internal lebih penting daripada benchmark publik.
Q
Apa tujuan dari LMArena menurut Wei-Lin Chiang?
A
Tujuan LMArena adalah untuk menciptakan ruang terbuka yang dapat dipercaya untuk mengukur preferensi komunitas terhadap berbagai model AI.

Artikel Serupa

Chatbot Arena Bentuk Perusahaan Baru untuk Kembangkan Platform AI Netral
Chatbot Arena Bentuk Perusahaan Baru untuk Kembangkan Platform AI Netral
Dari TechCrunch
Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif
Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif
Dari TechCrunch
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Dari TechCrunch
OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik
OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik
Dari TechCrunch
Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan
Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan
Dari TheVerge
Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil Benchmark
Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil Benchmark
Dari TechCrunch
Chatbot Arena Bentuk Perusahaan Baru untuk Kembangkan Platform AI NetralTechCrunch
Teknologi
4 bulan lalu
102 dibaca

Chatbot Arena Bentuk Perusahaan Baru untuk Kembangkan Platform AI Netral

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang KompetitifTechCrunch
Teknologi
4 bulan lalu
243 dibaca

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi HasilTechCrunch
Teknologi
4 bulan lalu
127 dibaca

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan SpesifikTechCrunch
Teknologi
4 bulan lalu
91 dibaca

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik

Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang DisembunyikanTheVerge
Teknologi
4 bulan lalu
163 dibaca

Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan

Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil BenchmarkTechCrunch
Teknologi
4 bulan lalu
236 dibaca

Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil Benchmark