Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%

Memperkenalkan K Prize sebagai benchmark baru yang lebih sulit dan bebas kontaminasi untuk mengukur kemampuan AI dalam memecahkan masalah pengkodean dunia nyata secara lebih valid dan mendorong kemajuan di bidang ini.

24 Jul 2025, 07.00 WIB
44 dibaca
Share
Ikhtisar 15 Detik
  • K Prize menetapkan standar baru dalam tantangan pengkodean AI.
  • Skor rendah menunjukkan bahwa model AI saat ini masih jauh dari kemampuan manusia.
  • K Prize mendorong pengembangan model open-source yang lebih efektif.
California, Amerika Serikat - Sebuah tantangan baru bernama K Prize diluncurkan untuk menguji kemampuan AI dalam menyelesaikan masalah pengkodean yang nyata dan sulit. Berbeda dengan benchmark sebelumnya seperti SWE-Bench, K Prize menggunakan data masalah GitHub yang baru tanpa kontaminasi dari pelatihan model sebelumnya.
Baca juga: Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade dari Brasil, yang memenangkan hadiah sebesar Rp 822.25 juta ($50,000) . Namun skor yang dia capai hanya 7.5%, jauh lebih rendah dibandingkan dengan skor pada SWE-Bench yang mencapai 75% untuk versi mudah.
Hal ini menunjukkan bahwa benchmark sebelumnya mungkin terlalu mudah atau model AI sudah beradaptasi dengan data tertentu, sehingga K Prize dibuat sebagai versi yang lebih menantang dan adil. Ini menjadi peringatan bahwa kemampuan AI di bidang pemrograman belum sehebat yang diproyeksikan.
Andy Konwinski, inisiator K Prize dan co-founder Perplexity, juga mengumumkan hadiah besar untuk model open-source yang bisa melewati skor 90% dalam benchmark ini. Ini bertujuan untuk mendorong kemajuan dan transparansi dalam pengembangan AI coding tools.
Baca juga: Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Para peneliti seperti Sayash Kapoor menyambut baik tantangan ini karena dapat menguak masalah kontaminasi dan memberikan pengukuran lebih valid terkait kemampuan AI. Ke depan, K Prize diharapkan menjadi tolok ukur penting dalam evaluasi dan pengembangan AI pengkodean.
Sumber: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Pertanyaan Terkait

Q
Siapa pemenang pertama K Prize?
A
Pemenang pertama K Prize adalah Eduardo Rocha de Andrade.
Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?
A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.
Q
Apa tujuan dari K Prize?
A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman nyata.
Q
Bagaimana cara K Prize menguji kemampuan model AI?
A
K Prize menguji kemampuan model AI dengan menggunakan masalah yang diambil dari isu-isu GitHub yang baru diunggah.
Q
Mengapa skor 7,5% dianggap signifikan?
A
Skor 7,5% dianggap signifikan karena menunjukkan bahwa tantangan ini lebih sulit dibandingkan benchmark lainnya seperti SWE-Bench.

Artikel Serupa

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Dari TechCrunch
OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI
OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI
Dari TechCrunch
Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.
Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.
Dari TechCrunch
Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.
Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.
Dari TechCrunch
Sakana mengklaim bahwa makalah AI-nya telah melewati proses peer review — tetapi ada nuansa yang lebih dalam dari itu.
Sakana mengklaim bahwa makalah AI-nya telah melewati proses peer review — tetapi ada nuansa yang lebih dalam dari itu.
Dari TechCrunch
Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.
Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.
Dari TechCrunch
Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AITechCrunch
Teknologi
3 bulan lalu
53 dibaca

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AITechCrunch
Teknologi
3 bulan lalu
88 dibaca

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI

Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.TechCrunch
Teknologi
4 bulan lalu
157 dibaca

Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
4 bulan lalu
70 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.

Sakana mengklaim bahwa makalah AI-nya telah melewati proses peer review — tetapi ada nuansa yang lebih dalam dari itu.TechCrunch
Teknologi
4 bulan lalu
151 dibaca

Sakana mengklaim bahwa makalah AI-nya telah melewati proses peer review — tetapi ada nuansa yang lebih dalam dari itu.

Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.TechCrunch
Teknologi
5 bulan lalu
108 dibaca

Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.