Courtesy of TechCrunch

Anthropic Uji AI Claude 3.7 Sonnet dengan Bermain Pokémon Red

25 Feb 2025, 02.10 WIB

124 dibaca

Ikhtisar 15 Detik

Claude 3.7 Sonnet menunjukkan kemajuan signifikan dalam kemampuan AI untuk bermain game.
Penggunaan permainan klasik seperti Pokémon Red sebagai benchmark menunjukkan pendekatan inovatif dalam pengujian AI.
Anthropic terus berkomitmen untuk mengembangkan AI yang lebih aman dan efektif.

Anthropic baru-baru ini menguji model AI terbarunya, Claude 3.7 Sonnet, dengan menggunakan permainan klasik Game Boy, Pokémon Red. Mereka memberikan model ini kemampuan untuk mengingat, menerima input dari layar, dan menekan tombol untuk bermain Pokémon secara terus-menerus. Salah satu fitur unik dari Claude 3.7 Sonnet adalah kemampuannya untuk "berpikir lebih lama" dalam menyelesaikan masalah yang sulit, yang membantunya untuk berhasil mengalahkan tiga pemimpin gym Pokémon dan mendapatkan lencana mereka, sesuatu yang tidak bisa dilakukan oleh versi sebelumnya, Claude 3.0 Sonnet.

Meskipun Pokémon Red lebih dianggap sebagai alat pengujian yang sederhana, banyak permainan lain juga digunakan untuk menguji kemampuan AI. Dalam beberapa bulan terakhir, banyak aplikasi dan platform baru muncul untuk menguji kemampuan model AI dalam bermain berbagai permainan, mulai dari Street Fighter hingga Pictionary. Ini menunjukkan bahwa permainan bisa menjadi cara yang menarik untuk mengukur seberapa baik AI dapat berpikir dan beradaptasi.

Referensi:
[1] https://techcrunch.com/2025/02/24/anthropic-used-pokemon-to-benchmark-its-newest-ai-model/

Analisis Ahli

Yoshua Bengio

"Menggunakan game sebagai benchmark adalah cara menarik untuk menguji aspek reasoning AI, tetapi penting untuk memastikan AI juga bisa beradaptasi dalam berbagai domain di luar game."

Fei-Fei Li

"Kemampuan 'extended thinking' dalam model AI seperti Claude 3.7 Sonnet menunjukkan kemajuan yang menjanjikan dalam pemrosesan masalah yang kompleks, yang penting untuk aplikasi AI di dunia nyata."

Analisis Kami

"Penggunaan game klasik seperti Pokémon Red sebagai benchmark AI memang unik dan kreatif, karena memberikan lingkungan yang kompleks dan terstruktur untuk menguji kemampuan reasoning model. Namun, saya mencurigai bahwa tanpa transparansi waktu dan sumber daya komputasi yang jelas, kemajuan ini mungkin lebih merupakan gimmick daripada lompatan signifikan dalam AI."

Prediksi Kami

Pengembang atau peneliti lain kemungkinan akan melakukan eksperimen lebih lanjut untuk menguji kemampuan dan efisiensi Claude 3.7 Sonnet dalam bermain game serta tantangan lain, dan metode benchmarking menggunakan game klasik mungkin akan semakin populer dalam evaluasi AI.

Pertanyaan Terkait

Apa yang diuji oleh Anthropic dalam model AI terbarunya?

Anthropic menguji model AI terbarunya, Claude 3.7 Sonnet, dengan permainan Pokémon Red.

Apa yang membuat Claude 3.7 Sonnet berbeda dari versi sebelumnya?

Claude 3.7 Sonnet memiliki kemampuan berpikir yang lebih mendalam dan dapat menyelesaikan tantangan yang lebih kompleks dibandingkan dengan versi sebelumnya, Claude 3.0 Sonnet.

Berapa banyak tindakan yang dilakukan Claude 3.7 Sonnet untuk mencapai gym leader terakhir?

Claude 3.7 Sonnet melakukan 35.000 tindakan untuk mencapai gym leader terakhir.

Mengapa Pokémon Red dianggap sebagai benchmark untuk AI?

Pokémon Red dianggap sebagai benchmark untuk AI karena memiliki sejarah panjang dalam pengujian kemampuan bermain game oleh model AI.

Apa tujuan utama dari pengembangan model AI oleh Anthropic?

Tujuan utama dari pengembangan model AI oleh Anthropic adalah untuk menciptakan kecerdasan buatan yang aman dan bermanfaat.