Courtesy of TechCrunch

Super Mario Bros Tantang AI, Model Claude Pimpin Performa dalam Permainan Waktu Nyata

04 Mar 2025, 06.54 WIB

28 dibaca

Ikhtisar 15 Detik

Super Mario Bros dianggap lebih menantang untuk AI dibandingkan dengan benchmark lain seperti Pokémon.
Model AI yang tidak menggunakan reasoning lebih efektif dalam permainan real-time seperti Super Mario Bros.
Ada kekhawatiran di kalangan ahli tentang bagaimana kemampuan AI diukur dan dievaluasi saat ini.

Sebuah kelompok peneliti dari Hao AI Lab di Universitas California San Diego menguji kemampuan AI dalam bermain Super Mario Bros. Mereka menemukan bahwa model AI dari Anthropic, yaitu Claude 3.7, tampil paling baik, diikuti oleh Claude 3.5. Sementara itu, model dari Google dan OpenAI, seperti Gemini 1.5 Pro dan GPT-4o, mengalami kesulitan. Dalam pengujian ini, AI diberi instruksi dasar dan gambar dari permainan untuk membantu mereka mengontrol karakter Mario dengan kode Python.

Peneliti juga mencatat bahwa model AI yang menggunakan pendekatan "berpikir" langkah demi langkah, seperti OpenAI's o1, justru tampil lebih buruk dibandingkan model yang tidak menggunakan pendekatan tersebut. Hal ini disebabkan oleh waktu yang dibutuhkan model berpikir untuk mengambil keputusan, yang sangat penting dalam permainan real-time seperti Super Mario Bros. Meskipun permainan sering digunakan untuk mengukur kemampuan AI, beberapa ahli meragukan seberapa baik metrik ini dalam menggambarkan kemajuan teknologi AI secara keseluruhan.

Referensi:
[1] https://techcrunch.com/2025/03/03/people-are-using-super-mario-to-benchmark-ai-now/

Analisis Ahli

Andrej Karpathy

"Saat ini sulit untuk menentukan metrik evaluasi AI yang benar-benar mewakili kemampuan model-model modern, yang menunjukkan adanya krisis evaluasi di bidang ini."

Analisis Kami

"Menggunakan game Super Mario Bros. sebagai benchmark AI memperlihatkan keterbatasan model-model reasoning yang terlalu lambat, sebuah tantangan besar untuk AI real-time. Ini menggarisbawahi pentingnya keseimbangan antara kemampuan berpikir mendalam dan kecepatan respons dalam pengembangan AI masa depan."

Prediksi Kami

Pengujian AI dengan permainan real-time seperti Super Mario Bros. akan memicu pengembangan model AI yang lebih efisien dan cepat dalam pengambilan keputusan, terutama untuk aplikasi yang memerlukan respons instan di dunia nyata.

Pertanyaan Terkait

Apa yang dilakukan Hao AI Lab dengan AI dalam permainan Super Mario Bros?

Hao AI Lab melakukan eksperimen dengan AI dalam permainan Super Mario Bros untuk mengevaluasi kemampuan model AI dalam situasi permainan yang kompleks.

Model AI mana yang menunjukkan performa terbaik dalam eksperimen ini?

Claude 3.7 menunjukkan performa terbaik dalam eksperimen ini, diikuti oleh Claude 3.5.

Mengapa model reasoning seperti OpenAI's o1 tidak berhasil dalam permainan ini?

Model reasoning seperti OpenAI's o1 tidak berhasil karena memerlukan waktu yang lebih lama untuk memutuskan tindakan, sedangkan dalam permainan ini, waktu sangat penting.

Apa kritik yang disampaikan oleh Andrej Karpathy tentang evaluasi kemampuan AI?

Andrej Karpathy mengkritik bahwa saat ini ada 'krisis evaluasi' dalam mengukur seberapa baik model AI, dan ia merasa bingung tentang metrik yang harus digunakan.

Apa yang dimaksud dengan 'GamingAgent' dalam konteks penelitian ini?

'GamingAgent' adalah kerangka kerja yang dikembangkan oleh Hao untuk memberikan kontrol kepada AI atas karakter Mario dalam permainan.