Courtesy of TechCrunch

Mengapa Benchmark AI Saat Ini Kurang Jelas meski Grok 3 Tampil Unggul

20 Feb 2025, 01.35 WIB

135 dibaca

Ikhtisar 15 Detik

Benchmark AI saat ini sering kali tidak mencerminkan kemampuan praktis model.
Ada kebutuhan mendesak untuk pengujian independen dan benchmark yang lebih baik dalam industri AI.
Startup baru seperti Thinking Machines Lab berusaha untuk membuat AI lebih sesuai dengan kebutuhan pengguna.

Minggu ini, Elon Musk meluncurkan model AI terbaru dari perusahaannya, xAI, yang bernama Grok 3. Model ini diklaim lebih baik daripada beberapa model AI terkemuka lainnya dalam hal matematika dan pemrograman. Namun, banyak ahli berpendapat bahwa hasil pengujian yang digunakan untuk menilai model AI sering kali tidak mencerminkan kemampuan sebenarnya dalam tugas-tugas yang penting bagi pengguna. Mereka meminta adanya pengujian yang lebih baik dan independen untuk menilai kinerja AI.

Selain itu, OpenAI mengubah pendekatan pengembangan AI-nya untuk lebih mendukung "kebebasan intelektual," dan ada juga startup baru bernama Thinking Machines Lab yang didirikan oleh mantan CTO OpenAI, Mira Murati. Meta juga akan mengadakan konferensi pengembang pertama yang fokus pada AI generatif, bernama LlamaCon, pada bulan April mendatang. Di sisi lain, sebuah perusahaan AI dari Tiongkok, Stepfun, meluncurkan model AI yang dapat memahami dan menghasilkan suara dalam beberapa bahasa, termasuk bahasa Mandarin, Inggris, dan Jepang.

Referensi:
[1] https://techcrunch.com/2025/02/19/this-week-in-ai-maybe-we-should-ignore-ai-benchmarks-for-now/

Analisis Ahli

Ethan Mollick

"Benchmark AI publik saat ini sudah jenuh dan tidak cukup efektif, sehingga industri harus mengembangkan standar pengujian yang lebih beragam dan independen untuk memastikan AI benar-benar bekerja sesuai harapan."

Paul

"Membangun fondasi AI yang transparan dan menghormati keberagaman budaya serta bahasa, seperti yang dilakukan OpenEuroLLM, penting untuk mempertahankan kedaulatan digital regional di era AI globalisasi."

Analisis Kami

"Benchmark AI saat ini masih terlalu bergantung pada angka-angka yang mudah dimanipulasi oleh perusahaan, sehingga tidak memberikan gambaran nyata tentang kapabilitas model dalam konteks sehari-hari. Untuk kemajuan AI yang benar-benar bermanfaat, kita harus mendorong pengujian yang transparan dan relevan dengan kebutuhan pengguna nyata, bukan hanya angka-angka statistik."

Prediksi Kami

Di masa depan, kemungkinan akan muncul metode pengujian AI yang lebih independen dan berfokus pada dampak ekonomi atau kegunaan nyata, sekaligus munculnya model AI yang semakin kompleks dengan kemampuan reasoning serta integrasi multimodalitas.