Courtesy of TechCrunch

Kontroversi di Balik Chatbot Arena: Dugaan Ketidakadilan dalam Penilaian AI

Mengungkap dugaan ketidakadilan dalam proses penilaian di Chatbot Arena yang memberikan keuntungan kepada beberapa perusahaan AI besar.

01 Mei 2025, 07.08 WIB

69 dibaca

Ikhtisar 15 Detik

LM Arena dituduh memberikan akses istimewa kepada perusahaan AI besar, yang mempengaruhi keadilan dalam benchmarking.
Penelitian ini menyoroti pentingnya transparansi dalam pengujian model AI untuk memastikan keadilan di industri.
Rekomendasi untuk meningkatkan keadilan di Chatbot Arena mencakup batasan pada pengujian privat dan pengungkapan skor.

Berkeley, California, Amerika Serikat - Sebuah makalah baru dari Cohere, Stanford, MIT, dan Ai2 menuduh LM Arena, organisasi di balik benchmark AI populer Chatbot Arena, membantu beberapa perusahaan AI besar mencapai skor papan peringkat yang lebih baik dengan mengorbankan pesaing. Menurut penulis, LM Arena memungkinkan perusahaan seperti Meta, OpenAI, Google, dan Amazon untuk menguji beberapa varian model AI secara pribadi dan tidak mempublikasikan skor dari yang berkinerja terendah.

Chatbot Arena, yang dibuat pada tahun 2023 sebagai proyek penelitian akademis dari UC Berkeley, telah menjadi benchmark utama bagi perusahaan AI. Namun, penulis makalah menemukan bahwa beberapa perusahaan AI tertentu dapat mengumpulkan lebih banyak data dari Chatbot Arena dengan menampilkan model mereka dalam jumlah 'pertempuran' model yang lebih tinggi, memberikan mereka keuntungan yang tidak adil.

Penulis makalah menyerukan LM Arena untuk meningkatkan transparansi dan membuat beberapa perubahan untuk memastikan keadilan. LM Arena telah menolak beberapa saran ini, tetapi menyatakan bahwa mereka akan membuat algoritma sampling baru untuk memastikan semua model muncul dalam jumlah pertempuran yang sama. Kontroversi ini muncul saat LM Arena mengumumkan peluncuran perusahaan dengan rencana untuk mengumpulkan modal dari investor.

Sumber: https://techcrunch.com/2025/04/30/study-accuses-lm-arena-of-helping-top-ai-labs-game-its-benchmark/

Pertanyaan Terkait

Apa yang dituduhkan oleh penelitian terhadap LM Arena?

Penelitian tersebut menuduh LM Arena memberikan akses istimewa kepada beberapa perusahaan AI untuk menguji model mereka secara privat, sehingga mempengaruhi skor di leaderboard.

Siapa saja perusahaan AI yang disebutkan dalam tuduhan tersebut?

Perusahaan AI yang disebutkan dalam tuduhan tersebut termasuk Meta, OpenAI, Google, dan Amazon.

Apa metode yang digunakan oleh Chatbot Arena untuk menilai model AI?

Chatbot Arena menilai model AI dengan menampilkan jawaban dari dua model secara berdampingan dan meminta pengguna untuk memilih yang terbaik.

Apa tanggapan LM Arena terhadap tuduhan dalam penelitian tersebut?

LM Arena menyatakan bahwa penelitian tersebut penuh dengan ketidakakuratan dan mereka berkomitmen untuk evaluasi yang adil dan transparan.

Apa rekomendasi yang diberikan oleh penulis penelitian untuk meningkatkan keadilan di Chatbot Arena?

Penulis penelitian merekomendasikan agar LM Arena menetapkan batasan yang jelas untuk pengujian privat dan mengungkapkan skor dari pengujian tersebut.