Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan
Courtesy of TheVerge

Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan

Mengungkapkan ketidakjelasan dalam perilisan model AI baru oleh Meta dan dampaknya terhadap kepercayaan pada benchmark AI.

08 Apr 2025, 08.32 WIB
163 dibaca
Share
Ikhtisar 15 Detik
  • Meta merilis model Llama 4 yang menantang model AI terkemuka lainnya.
  • Ada kekhawatiran tentang transparansi dan keadilan dalam pengujian model AI di LMArena.
  • Klaim tentang pelatihan pada set pengujian oleh Meta dibantah oleh VP AI Generatif mereka.
USA - Meta merilis dua model AI baru, Scout dan Maverick, yang diklaim dapat mengalahkan model AI terkemuka lainnya. Namun, ditemukan bahwa versi Maverick yang diuji di LMArena adalah versi eksperimental yang dioptimalkan untuk percakapan, bukan versi yang tersedia untuk publik.
LMArena mengkritik Meta karena tidak menjelaskan bahwa model yang diuji adalah versi khusus, dan memperbarui kebijakan mereka untuk mencegah kebingungan di masa depan. Meta juga dituduh melatih modelnya untuk performa lebih baik di benchmark, meskipun mereka membantah tuduhan tersebut.
Perilisan Llama 4 oleh Meta juga dianggap aneh karena dilakukan pada akhir pekan dan setelah beberapa kali penundaan. Insiden ini menunjukkan bagaimana benchmark AI menjadi medan pertempuran dan pentingnya transparansi dalam perilisan model AI.
--------------------
Analisis Kami: Meta tampaknya ingin cepat menunjukkan dominasinya di bidang AI dengan cara yang kurang etis, menggunakan versi yang dioptimalkan khusus untuk tes sehingga menciptakan ilusi performa terbaik. Ini memperburuk masalah kepercayaan terhadap evaluasi AI dan mengaburkan gambaran sebenarnya tentang kemampuan model yang tersedia untuk publik.
--------------------
Analisis Ahli:
Simon Willison: Menganggap skor tinggi Maverick di LMArena tidak berarti karena model yang diuji berbeda dengan versi publik, yang membuat peringkat tersebut kurang bisa dipercaya sebagai indikasi performa nyata.
--------------------
What's Next: Ke depan, situs benchmark AI akan memperketat aturan dan transparansi untuk mencegah praktik tuning berlebihan model demi memenangkan peringkat, sementara perusahaan AI mungkin akan lebih berhati-hati atau bahkan mencoba mengelabui sistem evaluasi untuk mempromosikan produk mereka.
Referensi:
[1] https://theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

Pertanyaan Terkait

Q
Apa yang dirilis oleh Meta akhir pekan lalu?
A
Meta merilis dua model baru Llama 4, yaitu Scout dan Maverick.
Q
Apa yang membuat model Maverick menonjol di LMArena?
A
Maverick menonjol di LMArena karena ELO score-nya yang tinggi, mengalahkan GPT-4o dan berada di bawah Gemini 2.5 Pro.
Q
Mengapa ada kebingungan mengenai versi Maverick yang diuji?
A
Ada kebingungan karena versi Maverick yang diuji di LMArena adalah versi eksperimen yang dioptimalkan untuk konversasionalitas, bukan versi publik.
Q
Apa tanggapan Ahmad Al-Dahle terhadap tuduhan pelatihan pada set pengujian?
A
Ahmad Al-Dahle menyatakan bahwa klaim tentang pelatihan pada set pengujian tidak benar dan menekankan perlunya stabilisasi implementasi.
Q
Mengapa waktu rilis Llama 4 dianggap aneh?
A
Waktu rilis Llama 4 dianggap aneh karena biasanya berita besar AI tidak dirilis pada hari Sabtu.

Artikel Serupa

Meta Gelar LlamaCon Demi Pulihkan Kepercayaan Pengembang AI Setelah Kritik Llama 4TechCrunch
Teknologi
3 bulan lalu
183 dibaca

Meta Gelar LlamaCon Demi Pulihkan Kepercayaan Pengembang AI Setelah Kritik Llama 4

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan ValiditasTechCrunch
Teknologi
3 bulan lalu
57 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang KompetitifTechCrunch
Teknologi
4 bulan lalu
244 dibaca

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif

Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil BenchmarkTechCrunch
Teknologi
4 bulan lalu
236 dibaca

Meta Bantah Latih AI dengan Data Tes untuk Membohongi Hasil Benchmark

Meta Rilis AI Maverick Versi Eksperimental, Jadi Sorotan di LM ArenaTechCrunch
Teknologi
4 bulan lalu
119 dibaca

Meta Rilis AI Maverick Versi Eksperimental, Jadi Sorotan di LM Arena

Meta Luncurkan Llama 4: AI Canggih dengan Kapasitas Besar dan Lisensi KontroversialTheVerge
Teknologi
4 bulan lalu
193 dibaca

Meta Luncurkan Llama 4: AI Canggih dengan Kapasitas Besar dan Lisensi Kontroversial