Courtesy of TechCrunch
K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%
Memperkenalkan K Prize sebagai benchmark baru yang lebih sulit dan bebas kontaminasi untuk mengukur kemampuan AI dalam memecahkan masalah pengkodean dunia nyata secara lebih valid dan mendorong kemajuan di bidang ini.
24 Jul 2025, 07.00 WIB
44 dibaca
Share
Ikhtisar 15 Detik
- K Prize menetapkan standar baru dalam tantangan pengkodean AI.
- Skor rendah menunjukkan bahwa model AI saat ini masih jauh dari kemampuan manusia.
- K Prize mendorong pengembangan model open-source yang lebih efektif.
California, Amerika Serikat - Sebuah tantangan baru bernama K Prize diluncurkan untuk menguji kemampuan AI dalam menyelesaikan masalah pengkodean yang nyata dan sulit. Berbeda dengan benchmark sebelumnya seperti SWE-Bench, K Prize menggunakan data masalah GitHub yang baru tanpa kontaminasi dari pelatihan model sebelumnya.
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade dari Brasil, yang memenangkan hadiah sebesar Rp 822.25 juta ($50,000) . Namun skor yang dia capai hanya 7.5%, jauh lebih rendah dibandingkan dengan skor pada SWE-Bench yang mencapai 75% untuk versi mudah.
Hal ini menunjukkan bahwa benchmark sebelumnya mungkin terlalu mudah atau model AI sudah beradaptasi dengan data tertentu, sehingga K Prize dibuat sebagai versi yang lebih menantang dan adil. Ini menjadi peringatan bahwa kemampuan AI di bidang pemrograman belum sehebat yang diproyeksikan.
Andy Konwinski, inisiator K Prize dan co-founder Perplexity, juga mengumumkan hadiah besar untuk model open-source yang bisa melewati skor 90% dalam benchmark ini. Ini bertujuan untuk mendorong kemajuan dan transparansi dalam pengembangan AI coding tools.
Para peneliti seperti Sayash Kapoor menyambut baik tantangan ini karena dapat menguak masalah kontaminasi dan memberikan pengukuran lebih valid terkait kemampuan AI. Ke depan, K Prize diharapkan menjadi tolok ukur penting dalam evaluasi dan pengembangan AI pengkodean.
Sumber: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/
Pertanyaan Terkait
Q
Siapa pemenang pertama K Prize?A
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade.Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.Q
Apa tujuan dari K Prize?A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman nyata.Q
Bagaimana cara K Prize menguji kemampuan model AI?A
K Prize menguji kemampuan model AI dengan menggunakan masalah yang diambil dari isu-isu GitHub yang baru diunggah.Q
Mengapa skor 7,5% dianggap signifikan?A
Skor 7,5% dianggap signifikan karena menunjukkan bahwa tantangan ini lebih sulit dibandingkan benchmark lainnya seperti SWE-Bench.