Super Mario Bros Tantang AI, Model Claude Pimpin Performa dalam Permainan Waktu Nyata
Courtesy of TechCrunch

Super Mario Bros Tantang AI, Model Claude Pimpin Performa dalam Permainan Waktu Nyata

04 Mar 2025, 06.54 WIB
141 dibaca
Share
Ikhtisar 15 Detik
  • Super Mario Bros dianggap lebih menantang untuk AI dibandingkan dengan benchmark lain seperti Pokémon.
  • Model AI yang tidak menggunakan reasoning lebih efektif dalam permainan real-time seperti Super Mario Bros.
  • Ada kekhawatiran di kalangan ahli tentang bagaimana kemampuan AI diukur dan dievaluasi saat ini.
Sebuah kelompok peneliti dari Hao AI Lab di Universitas California San Diego menguji kemampuan AI dalam bermain Super Mario Bros. Mereka menemukan bahwa model AI dari Anthropic, yaitu Claude 3.7, tampil paling baik, diikuti oleh Claude 3.5. Sementara itu, model dari Google dan OpenAI, seperti Gemini 1.5 Pro dan GPT-4o, mengalami kesulitan. Dalam pengujian ini, AI diberi instruksi dasar dan gambar dari permainan untuk membantu mereka mengontrol karakter Mario dengan kode Python.
Peneliti juga mencatat bahwa model AI yang menggunakan pendekatan "berpikir" langkah demi langkah, seperti OpenAI's o1, justru tampil lebih buruk dibandingkan model yang tidak menggunakan pendekatan tersebut. Hal ini disebabkan oleh waktu yang dibutuhkan model berpikir untuk mengambil keputusan, yang sangat penting dalam permainan real-time seperti Super Mario Bros. Meskipun permainan sering digunakan untuk mengukur kemampuan AI, beberapa ahli meragukan seberapa baik metrik ini dalam menggambarkan kemajuan teknologi AI secara keseluruhan.
--------------------
Analisis Kami: Menggunakan game Super Mario Bros. sebagai benchmark AI memperlihatkan keterbatasan model-model reasoning yang terlalu lambat, sebuah tantangan besar untuk AI real-time. Ini menggarisbawahi pentingnya keseimbangan antara kemampuan berpikir mendalam dan kecepatan respons dalam pengembangan AI masa depan.
--------------------
Analisis Ahli:
Andrej Karpathy: Saat ini sulit untuk menentukan metrik evaluasi AI yang benar-benar mewakili kemampuan model-model modern, yang menunjukkan adanya krisis evaluasi di bidang ini.
--------------------
What's Next: Pengujian AI dengan permainan real-time seperti Super Mario Bros. akan memicu pengembangan model AI yang lebih efisien dan cepat dalam pengambilan keputusan, terutama untuk aplikasi yang memerlukan respons instan di dunia nyata.
Referensi:
[1] https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/

Pertanyaan Terkait

Q
Apa yang dilakukan Hao AI Lab dengan AI dalam permainan Super Mario Bros?
A
Hao AI Lab melakukan eksperimen dengan AI dalam permainan Super Mario Bros untuk mengevaluasi kemampuan model AI dalam situasi permainan yang kompleks.
Q
Model AI mana yang menunjukkan performa terbaik dalam eksperimen ini?
A
Claude 3.7 menunjukkan performa terbaik dalam eksperimen ini, diikuti oleh Claude 3.5.
Q
Mengapa model reasoning seperti OpenAI's o1 tidak berhasil dalam permainan ini?
A
Model reasoning seperti OpenAI's o1 tidak berhasil karena memerlukan waktu yang lebih lama untuk memutuskan tindakan, sedangkan dalam permainan ini, waktu sangat penting.
Q
Apa kritik yang disampaikan oleh Andrej Karpathy tentang evaluasi kemampuan AI?
A
Andrej Karpathy mengkritik bahwa saat ini ada 'krisis evaluasi' dalam mengukur seberapa baik model AI, dan ia merasa bingung tentang metrik yang harus digunakan.
Q
Apa yang dimaksud dengan 'GamingAgent' dalam konteks penelitian ini?
A
'GamingAgent' adalah kerangka kerja yang dikembangkan oleh Hao untuk memberikan kontrol kepada AI atas karakter Mario dalam permainan.

Artikel Serupa

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan MinimapsTechCrunch
Teknologi
4 bulan lalu
48 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AITechCrunch
Teknologi
4 bulan lalu
162 dibaca

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AI

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan DigitalTechCrunch
Teknologi
4 bulan lalu
74 dibaca

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan Digital

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih CepatTechCrunch
Teknologi
5 bulan lalu
69 dibaca

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat

Claude 3.7 Sonnet: AI Baru Anthropic Bermain Pokémon dan Uji KemampuannyaTechCrunch
Teknologi
5 bulan lalu
194 dibaca

Claude 3.7 Sonnet: AI Baru Anthropic Bermain Pokémon dan Uji Kemampuannya

Anthropic Uji AI Claude 3.7 Sonnet dengan Bermain Pokémon RedTechCrunch
Teknologi
5 bulan lalu
86 dibaca

Anthropic Uji AI Claude 3.7 Sonnet dengan Bermain Pokémon Red