Courtesy of TechCrunch

K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%

Memperkenalkan K Prize sebagai benchmark baru yang lebih sulit dan bebas kontaminasi untuk mengukur kemampuan AI dalam memecahkan masalah pengkodean dunia nyata secara lebih valid dan mendorong kemajuan di bidang ini.

24 Jul 2025, 07.00 WIB

85 dibaca

Ikhtisar 15 Detik

K Prize menetapkan standar baru dalam tantangan pengkodean AI.
Skor rendah menunjukkan bahwa model AI saat ini masih jauh dari kemampuan manusia.
K Prize mendorong pengembangan model open-source yang lebih efektif.

California, Amerika Serikat - Sebuah tantangan baru bernama K Prize diluncurkan untuk menguji kemampuan AI dalam menyelesaikan masalah pengkodean yang nyata dan sulit. Berbeda dengan benchmark sebelumnya seperti SWE-Bench, K Prize menggunakan data masalah GitHub yang baru tanpa kontaminasi dari pelatihan model sebelumnya.

Pemenang pertama K Prize adalah Eduardo Rocha de Andrade dari Brasil, yang memenangkan hadiah sebesar Rp 835.00 juta ($50,000) . Namun skor yang dia capai hanya 7.5%, jauh lebih rendah dibandingkan dengan skor pada SWE-Bench yang mencapai 75% untuk versi mudah.

Hal ini menunjukkan bahwa benchmark sebelumnya mungkin terlalu mudah atau model AI sudah beradaptasi dengan data tertentu, sehingga K Prize dibuat sebagai versi yang lebih menantang dan adil. Ini menjadi peringatan bahwa kemampuan AI di bidang pemrograman belum sehebat yang diproyeksikan.

Andy Konwinski, inisiator K Prize dan co-founder Perplexity, juga mengumumkan hadiah besar untuk model open-source yang bisa melewati skor 90% dalam benchmark ini. Ini bertujuan untuk mendorong kemajuan dan transparansi dalam pengembangan AI coding tools.

Para peneliti seperti Sayash Kapoor menyambut baik tantangan ini karena dapat menguak masalah kontaminasi dan memberikan pengukuran lebih valid terkait kemampuan AI. Ke depan, K Prize diharapkan menjadi tolok ukur penting dalam evaluasi dan pengembangan AI pengkodean.

Referensi:
[1] https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Analisis Ahli

Sayash Kapoor

"Tanpa eksperimen nyata seperti K Prize, sulit mengetahui apakah kemajuan terlihat di leaderboard SWE-Bench hanya hasil kontaminasi atau ada peningkatan asli dari kemampuan AI."

Analisis Kami

"K Prize menunjukkan bahwa pengujian AI harus terus diperbarui agar tidak terjebak dalam data lama yang sudah dikenal model, yang membuat hasil terlihat lebih bagus daripada aslinya. Ini adalah panggilan penting bagi industri AI untuk fokus pada evaluasi yang lebih realistis agar kemajuan teknologi benar-benar bermanfaat dan bukan sekadar ilusi performa."

Prediksi Kami

Dengan terus berkembangnya K Prize dan lebih banyak peserta beradaptasi, kemampuan model AI dalam pengkodean di masa depan akan meningkat secara signifikan, memicu kemunculan model AI open-source yang lebih kuat dan terpercaya.