Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AI
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AI

25 Mar 2025, 07.29 WIB
162 dibaca
Share
Ikhtisar 15 Detik
  • ARC-AGI-2 adalah tes baru yang lebih menantang untuk mengukur kecerdasan umum model AI.
  • Efisiensi dalam menyelesaikan masalah menjadi fokus utama dalam pengujian ARC-AGI-2.
  • Arc Prize Foundation mengadakan kompetisi untuk mendorong pengembang mencapai hasil yang lebih baik dengan biaya yang lebih rendah.
Yayasan Arc Prize, yang didirikan oleh peneliti AI terkenal François Chollet, baru saja mengumumkan tes baru bernama ARC-AGI-2 untuk mengukur kecerdasan umum model AI. Tes ini terdiri dari masalah seperti teka-teki di mana AI harus mengidentifikasi pola visual dari kotak berwarna dan menghasilkan grid jawaban yang benar. Hasilnya menunjukkan bahwa sebagian besar model AI, termasuk yang terkenal seperti GPT-4.5 dan Claude 3.7, hanya mendapatkan skor sekitar 1%, jauh di bawah rata-rata manusia yang mencapai 60%.
Baca juga: OpenAI Luncurkan GPT-5, AI Pintar yang Lebih Cepat dan Andal untuk Semua
ARC-AGI-2 dirancang untuk menguji seberapa efisien AI dapat belajar dan menyelesaikan masalah baru tanpa mengandalkan kekuatan komputasi yang besar. Chollet menjelaskan bahwa kecerdasan tidak hanya diukur dari kemampuan menyelesaikan masalah, tetapi juga seberapa efisien AI dapat belajar dan menerapkan keterampilan tersebut. Bersamaan dengan tes ini, Yayasan Arc Prize juga mengumumkan kontes Arc Prize 2025, yang menantang pengembang untuk mencapai akurasi 85% pada tes ARC-AGI-2 dengan biaya hanya Rp 690.69 ribu ($0,42) per tugas.
--------------------
Analisis Kami: ARC-AGI-2 adalah tonggak penting dalam standar evaluasi kecerdasan buatan yang menuntut AI untuk benar-benar belajar dan beradaptasi tanpa mengandalkan kekuatan komputasi mahal. Ini menandai era baru di mana efisiensi menjadi kunci utama dalam pengembangan AGI, yang sebelumnya sering diabaikan oleh pembuat model dan penilai performa.
--------------------
Analisis Ahli:
François Chollet: ARC-AGI-2 memperbaiki kelemahan tes sebelumnya dengan menekankan pada efisiensi adaptasi daripada sekadar kemampuan brute force, sehingga memberikan pengukuran yang lebih akurat terhadap kecerdasan sebenarnya dari AI.
Thomas Wolf: Industri AI membutuhkan benchmark seperti ARC-AGI-2 untuk mengukur kreativitas dan kecerdasan umum, bukan hanya performa di dataset yang sudah dikenal.
--------------------
Baca juga: OpenAI Luncurkan Model AI Terbuka untuk Saingi Laboratorium China dan Meta
What's Next: Dengan adanya ARC-AGI-2, model-model AI akan terdorong untuk berkembang tidak hanya dalam kemampuan pemecahan masalah tetapi juga efisiensi dan adaptasi, yang akan mengarah pada kemajuan signifikan menuju terciptanya AI umum yang lebih pintar dan hemat sumber daya dalam beberapa tahun mendatang.
Referensi:
[1] https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/

Pertanyaan Terkait

Q
Apa itu ARC-AGI-2?
A
ARC-AGI-2 adalah tes baru yang dirancang untuk mengukur kecerdasan umum model AI.
Q
Siapa yang mendirikan Arc Prize Foundation?
A
Arc Prize Foundation didirikan oleh François Chollet dan rekan-rekannya.
Q
Bagaimana cara ARC-AGI-2 mengukur kecerdasan model AI?
A
ARC-AGI-2 mengukur kecerdasan model AI dengan menguji kemampuan mereka dalam menyelesaikan masalah baru dan efisiensi dalam melakukannya.
Q
Apa yang menjadi kelemahan dari ARC-AGI-1?
A
Kelemahan ARC-AGI-1 adalah model AI dapat mengandalkan kekuatan komputasi yang besar untuk menemukan solusi.
Q
Apa tujuan dari Arc Prize 2025?
A
Tujuan dari Arc Prize 2025 adalah menantang pengembang untuk mencapai akurasi 85% pada tes ARC-AGI-2 dengan biaya rendah.

Artikel Serupa

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Dari TechCrunch
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Dari TechCrunch
Biaya Model AI Baru OpenAI o3 Ternyata 10 Kali Lebih Mahal dari Perkiraan Awal
Biaya Model AI Baru OpenAI o3 Ternyata 10 Kali Lebih Mahal dari Perkiraan Awal
Dari TechCrunch
Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat
Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat
Dari TechCrunch
OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI
OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI
Dari TechCrunch
Anthropic Rilis Claude 3.7: AI Hybrid yang Bisa Atur Penalaran Sesuai Kebutuhan
Anthropic Rilis Claude 3.7: AI Hybrid yang Bisa Atur Penalaran Sesuai Kebutuhan
Dari Wired
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?TechCrunch
Teknologi
3 bulan lalu
91 dibaca

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi HasilTechCrunch
Teknologi
4 bulan lalu
127 dibaca

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil

Biaya Model AI Baru OpenAI o3 Ternyata 10 Kali Lebih Mahal dari Perkiraan AwalTechCrunch
Teknologi
4 bulan lalu
139 dibaca

Biaya Model AI Baru OpenAI o3 Ternyata 10 Kali Lebih Mahal dari Perkiraan Awal

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih CepatTechCrunch
Teknologi
5 bulan lalu
70 dibaca

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat

OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AITechCrunch
Teknologi
5 bulan lalu
108 dibaca

OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI

Anthropic Rilis Claude 3.7: AI Hybrid yang Bisa Atur Penalaran Sesuai KebutuhanWired
Teknologi
5 bulan lalu
147 dibaca

Anthropic Rilis Claude 3.7: AI Hybrid yang Bisa Atur Penalaran Sesuai Kebutuhan