K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%
Courtesy of TechCrunch

K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%

Memperkenalkan K Prize sebagai benchmark baru yang lebih sulit dan bebas kontaminasi untuk mengukur kemampuan AI dalam memecahkan masalah pengkodean dunia nyata secara lebih valid dan mendorong kemajuan di bidang ini.

24 Jul 2025, 07.00 WIB
252 dibaca
Share
Ikhtisar 15 Detik
  • K Prize menetapkan standar baru dalam tantangan pengkodean AI.
  • Skor rendah menunjukkan bahwa model AI saat ini masih jauh dari kemampuan manusia.
  • K Prize mendorong pengembangan model open-source yang lebih efektif.
California, Amerika Serikat - Sebuah tantangan baru bernama K Prize diluncurkan untuk menguji kemampuan AI dalam menyelesaikan masalah pengkodean yang nyata dan sulit. Berbeda dengan benchmark sebelumnya seperti SWE-Bench, K Prize menggunakan data masalah GitHub yang baru tanpa kontaminasi dari pelatihan model sebelumnya.
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade dari Brasil, yang memenangkan hadiah sebesar Rp 822.25 juta ($50,000) . Namun skor yang dia capai hanya 7.5%, jauh lebih rendah dibandingkan dengan skor pada SWE-Bench yang mencapai 75% untuk versi mudah.
Hal ini menunjukkan bahwa benchmark sebelumnya mungkin terlalu mudah atau model AI sudah beradaptasi dengan data tertentu, sehingga K Prize dibuat sebagai versi yang lebih menantang dan adil. Ini menjadi peringatan bahwa kemampuan AI di bidang pemrograman belum sehebat yang diproyeksikan.
Andy Konwinski, inisiator K Prize dan co-founder Perplexity, juga mengumumkan hadiah besar untuk model open-source yang bisa melewati skor 90% dalam benchmark ini. Ini bertujuan untuk mendorong kemajuan dan transparansi dalam pengembangan AI coding tools.
Para peneliti seperti Sayash Kapoor menyambut baik tantangan ini karena dapat menguak masalah kontaminasi dan memberikan pengukuran lebih valid terkait kemampuan AI. Ke depan, K Prize diharapkan menjadi tolok ukur penting dalam evaluasi dan pengembangan AI pengkodean.
Referensi:
[1] https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Analisis Kami

"K Prize menunjukkan bahwa pengujian AI harus terus diperbarui agar tidak terjebak dalam data lama yang sudah dikenal model, yang membuat hasil terlihat lebih bagus daripada aslinya. Ini adalah panggilan penting bagi industri AI untuk fokus pada evaluasi yang lebih realistis agar kemajuan teknologi benar-benar bermanfaat dan bukan sekadar ilusi performa."

Analisis Ahli

Sayash Kapoor
"Tanpa eksperimen nyata seperti K Prize, sulit mengetahui apakah kemajuan terlihat di leaderboard SWE-Bench hanya hasil kontaminasi atau ada peningkatan asli dari kemampuan AI."

Prediksi Kami

Dengan terus berkembangnya K Prize dan lebih banyak peserta beradaptasi, kemampuan model AI dalam pengkodean di masa depan akan meningkat secara signifikan, memicu kemunculan model AI open-source yang lebih kuat dan terpercaya.

Pertanyaan Terkait

Q
Siapa pemenang pertama K Prize?
A
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade.
Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?
A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.
Q
Apa tujuan dari K Prize?
A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman nyata.
Q
Bagaimana cara K Prize menguji kemampuan model AI?
A
K Prize menguji kemampuan model AI dengan menggunakan masalah yang diambil dari isu-isu GitHub yang baru diunggah.
Q
Mengapa skor 7,5% dianggap signifikan?
A
Skor 7,5% dianggap signifikan karena menunjukkan bahwa tantangan ini lebih sulit dibandingkan benchmark lainnya seperti SWE-Bench.

Artikel Serupa

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan ValiditasTechCrunch
Teknologi
4 bulan lalu
189 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan SpesifikTechCrunch
Teknologi
5 bulan lalu
27 dibaca

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AITechCrunch
Teknologi
5 bulan lalu
127 dibaca

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AI

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan DigitalTechCrunch
Teknologi
6 bulan lalu
33 dibaca

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan Digital

Teka-Teki Sunday Puzzle Jadi Ujian Baru untuk Kecerdasan Buatan yang Lebih ManusiawiTechCrunch
Teknologi
7 bulan lalu
43 dibaca

Teka-Teki Sunday Puzzle Jadi Ujian Baru untuk Kecerdasan Buatan yang Lebih Manusiawi

Mengapa Tes IQ Bukan Tolok Ukur Tepat untuk Kemampuan AI Saat IniTechCrunch
Teknologi
7 bulan lalu
204 dibaca

Mengapa Tes IQ Bukan Tolok Ukur Tepat untuk Kemampuan AI Saat Ini