Mengapa Benchmark AI Saat Ini Kurang Jelas meski Grok 3 Tampil Unggul
Courtesy of TechCrunch

Mengapa Benchmark AI Saat Ini Kurang Jelas meski Grok 3 Tampil Unggul

20 Feb 2025, 01.35 WIB
108 dibaca
Share
Ikhtisar 15 Detik
  • Benchmark AI saat ini sering kali tidak mencerminkan kemampuan praktis model.
  • Ada kebutuhan mendesak untuk pengujian independen dan benchmark yang lebih baik dalam industri AI.
  • Startup baru seperti Thinking Machines Lab berusaha untuk membuat AI lebih sesuai dengan kebutuhan pengguna.
Minggu ini, Elon Musk meluncurkan model AI terbaru dari perusahaannya, xAI, yang bernama Grok 3. Model ini diklaim lebih baik daripada beberapa model AI terkemuka lainnya dalam hal matematika dan pemrograman. Namun, banyak ahli berpendapat bahwa hasil pengujian yang digunakan untuk menilai model AI sering kali tidak mencerminkan kemampuan sebenarnya dalam tugas-tugas yang penting bagi pengguna. Mereka meminta adanya pengujian yang lebih baik dan independen untuk menilai kinerja AI.
Selain itu, OpenAI mengubah pendekatan pengembangan AI-nya untuk lebih mendukung "kebebasan intelektual," dan ada juga startup baru bernama Thinking Machines Lab yang didirikan oleh mantan CTO OpenAI, Mira Murati. Meta juga akan mengadakan konferensi pengembang pertama yang fokus pada AI generatif, bernama LlamaCon, pada bulan April mendatang. Di sisi lain, sebuah perusahaan AI dari Tiongkok, Stepfun, meluncurkan model AI yang dapat memahami dan menghasilkan suara dalam beberapa bahasa, termasuk bahasa Mandarin, Inggris, dan Jepang.
--------------------
Analisis Kami: Benchmark AI saat ini masih terlalu bergantung pada angka-angka yang mudah dimanipulasi oleh perusahaan, sehingga tidak memberikan gambaran nyata tentang kapabilitas model dalam konteks sehari-hari. Untuk kemajuan AI yang benar-benar bermanfaat, kita harus mendorong pengujian yang transparan dan relevan dengan kebutuhan pengguna nyata, bukan hanya angka-angka statistik.
--------------------
Analisis Ahli:
Ethan Mollick: Benchmark AI publik saat ini sudah jenuh dan tidak cukup efektif, sehingga industri harus mengembangkan standar pengujian yang lebih beragam dan independen untuk memastikan AI benar-benar bekerja sesuai harapan.
Paul: Membangun fondasi AI yang transparan dan menghormati keberagaman budaya serta bahasa, seperti yang dilakukan OpenEuroLLM, penting untuk mempertahankan kedaulatan digital regional di era AI globalisasi.
--------------------
What's Next: Di masa depan, kemungkinan akan muncul metode pengujian AI yang lebih independen dan berfokus pada dampak ekonomi atau kegunaan nyata, sekaligus munculnya model AI yang semakin kompleks dengan kemampuan reasoning serta integrasi multimodalitas.
Referensi:
[1] https://techcrunch.com/2025/02/19/this-week-in-ai-maybe-we-should-ignore-ai-benchmarks-for-now/

Pertanyaan Terkait

Q
Apa yang dirilis oleh xAI minggu ini?
A
xAI merilis model AI terbarunya, Grok 3.
Q
Apa kritik yang disampaikan oleh Ethan Mollick mengenai benchmark AI?
A
Ethan Mollick mengkritik bahwa benchmark AI saat ini tidak cukup baik dan perlu ada pengujian independen.
Q
Siapa pendiri Thinking Machines Lab?
A
Thinking Machines Lab didirikan oleh Mira Murati, mantan CTO OpenAI.
Q
Apa tujuan dari OpenEuroLLM?
A
OpenEuroLLM bertujuan untuk membangun model dasar untuk AI yang transparan di Eropa.
Q
Apa yang dapat dilakukan oleh model Step-Audio?
A
Model Step-Audio dapat memahami dan menghasilkan ucapan dalam beberapa bahasa serta memungkinkan pengguna menyesuaikan emosi dan dialek.

Artikel Serupa

Pertemuan OpenAI dan SoftBank Bahas Otomasi AI dan Dampak SosialnyaTechCrunch
Teknologi
6 bulan lalu
135 dibaca

Pertemuan OpenAI dan SoftBank Bahas Otomasi AI dan Dampak Sosialnya

OpenAI dan Stargate: Langkah Besar Kuasai Infrastruktur AI GlobalTechCrunch
Teknologi
6 bulan lalu
203 dibaca

OpenAI dan Stargate: Langkah Besar Kuasai Infrastruktur AI Global

Minggu Ini dalam AI: Apakah tindakan AI Biden akan bertahan di era Trump?TechCrunch
Teknologi
7 bulan lalu
222 dibaca

Minggu Ini dalam AI: Apakah tindakan AI Biden akan bertahan di era Trump?

Minggu Ini dalam AI: AI yang lebih canggih akan datang, tetapi apakah manfaatnya akan didistribusikan secara merata?TechCrunch
Teknologi
7 bulan lalu
250 dibaca

Minggu Ini dalam AI: AI yang lebih canggih akan datang, tetapi apakah manfaatnya akan didistribusikan secara merata?

Siapa yang menginginkan AI seperti 'Her' yang sering salah?TechCrunch
Teknologi
8 bulan lalu
241 dibaca

Siapa yang menginginkan AI seperti 'Her' yang sering salah?

Minggu Ini dalam AI: Mencari keseimbangan di tengah banjir beritaTechCrunch
Teknologi
8 bulan lalu
178 dibaca

Minggu Ini dalam AI: Mencari keseimbangan di tengah banjir berita