Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
Pomodo
TwitterInstagram
Tentang
TeknologiKecerdasan BuatanKendaraan Listrik dan BateraiKeamanan SiberPengembangan SoftwareGadgets dan WearablePermainan Console, PC, Mobile dan VRRobotika
BisnisEkonomi MakroStartup dan KewirausahaanManajemen dan Strategi BisnisMarketing
SainsFisika dan KimiaMatematikaNeurosains and PsikologiKesehatan dan Obat-obatanIklim dan LingkunganAstronomi dan Penjelajahan Luar Angkasa
FinansialMata Uang KriptoInvestasi dan Pasar ModalPerencanaan KeuanganPerbankan dan Layanan KeuanganKebijakan Fiskal
"Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

"Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"

TechCrunch
Dari TechCrunch
07 Apr 2025, 04.16 WIB
109 dibaca
Share
Ikhtisar 15 Detik
  • Versi Maverick yang diuji di LM Arena adalah versi eksperimental yang berbeda dari yang tersedia untuk pengembang.
  • Penyesuaian model untuk benchmark dapat menyesatkan dan menyulitkan prediksi performa di konteks nyata.
  • Perilaku model AI dapat bervariasi secara signifikan antara versi yang diuji dan versi yang dirilis untuk umum.
Meta baru saja merilis model AI baru bernama Maverick, yang saat ini menduduki peringkat kedua di LM Arena. Di sini, para penilai manusia membandingkan hasil keluaran dari berbagai model AI dan memilih mana yang mereka sukai. Namun, versi Maverick yang digunakan di LM Arena berbeda dari versi yang tersedia untuk pengembang. Meta menyebutkan bahwa Maverick di LM Arena adalah "versi percobaan untuk obrolan," sementara versi yang bisa diunduh tidak dioptimalkan dengan cara yang sama.
Baca juga: Kontroversi di Balik Chatbot Arena: Dugaan Ketidakadilan dalam Penilaian AI
Beberapa peneliti AI menunjukkan bahwa LM Arena tidak selalu menjadi ukuran yang paling akurat untuk menilai kinerja model AI. Biasanya, perusahaan AI tidak menyesuaikan model mereka agar lebih baik di LM Arena, atau setidaknya tidak mengakuinya. Masalahnya adalah jika sebuah model disesuaikan untuk mencapai skor tinggi di benchmark, tetapi versi yang dirilis untuk umum tidak disesuaikan, maka pengembang akan kesulitan memprediksi kinerja model tersebut dalam konteks tertentu.
Baca juga: Meta Tantang OpenAI dengan Peluncuran Chatbot AI dan API Llama
Peneliti juga mencatat perbedaan mencolok antara Maverick yang dapat diunduh dan yang ada di LM Arena. Versi di LM Arena cenderung menggunakan banyak emoji dan memberikan jawaban yang sangat panjang. Kami telah menghubungi Meta dan Chatbot Arena untuk mendapatkan komentar lebih lanjut tentang hal ini.
(Sumber)

Pertanyaan Terkait

Q
Apa yang dimaksud dengan Maverick dalam artikel ini?
A
Maverick adalah model AI terbaru yang dirilis oleh Meta dan menunjukkan performa yang baik di LM Arena.
Q
Mengapa versi Maverick yang diuji di LM Arena berbeda dari yang tersedia untuk pengembang?
A
Versi Maverick yang diuji di LM Arena adalah versi eksperimental yang dioptimalkan untuk konversasionalitas, berbeda dari versi yang tersedia untuk pengembang.
Q
Apa tujuan dari pengujian di LM Arena?
A
Tujuan dari pengujian di LM Arena adalah untuk membandingkan performa model AI melalui penilaian oleh penguji manusia.
Q
Apa yang menjadi masalah dengan penyesuaian model untuk benchmark?
A
Masalah dengan penyesuaian model untuk benchmark adalah dapat membuat sulit bagi pengembang untuk memprediksi performa model dalam konteks tertentu dan dapat menyesatkan.
Q
Apa yang diamati oleh peneliti mengenai perilaku Maverick yang dapat diunduh secara publik?
A
Peneliti mengamati perbedaan mencolok dalam perilaku Maverick yang dapat diunduh dibandingkan dengan model yang dihosting di LM Arena, termasuk penggunaan emoji dan jawaban yang panjang.

Artikel Serupa

Meta Gelar LlamaCon: Harapan Baru untuk Model AI Llama
Meta Gelar LlamaCon: Harapan Baru untuk Model AI Llama
Dari TechCrunch
Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Dari TechCrunch
Meta Dikritik Karena Gunakan Model Eksperimental untuk Skor Tinggi di LM Arena
Meta Dikritik Karena Gunakan Model Eksperimental untuk Skor Tinggi di LM Arena
Dari TechCrunch
Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan Maverick
Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan Maverick
Dari TheVerge
Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok Ukur
Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok Ukur
Dari TechCrunch
Meta merilis dua model AI Llama 4.
Meta merilis dua model AI Llama 4.
Dari TheVerge
Meta Gelar LlamaCon: Harapan Baru untuk Model AI LlamaTechCrunch
Teknologi
1 bulan lalu
111 dibaca

Meta Gelar LlamaCon: Harapan Baru untuk Model AI Llama

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AITechCrunch
Teknologi
1 bulan lalu
42 dibaca

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI

Meta Dikritik Karena Gunakan Model Eksperimental untuk Skor Tinggi di LM ArenaTechCrunch
Teknologi
2 bulan lalu
200 dibaca

Meta Dikritik Karena Gunakan Model Eksperimental untuk Skor Tinggi di LM Arena

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan MaverickTheVerge
Teknologi
2 bulan lalu
117 dibaca

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan Maverick

Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok UkurTechCrunch
Teknologi
2 bulan lalu
192 dibaca

Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok Ukur

Meta merilis dua model AI Llama 4.TheVerge
Teknologi
2 bulan lalu
123 dibaca

Meta merilis dua model AI Llama 4.