Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Courtesy of TechCrunch

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Menghadirkan benchmark yang sulit dan bebas kontaminasi untuk menilai kemampuan model AI dalam memecahkan masalah pemrograman dunia nyata serta mendorong pengembangan model AI terbuka yang lebih baik.

24 Jul 2025, 07.00 WIB
24 dibaca
Share
Ikhtisar 15 Detik
  • K Prize menunjukkan bahwa benchmark yang lebih sulit diperlukan untuk mengevaluasi kemampuan AI.
  • Eduardo Rocha de Andrade memenangkan K Prize meskipun hanya menjawab 7,5% dari pertanyaan dengan benar.
  • Tantangan ini menciptakan kesempatan bagi model open source untuk berkompetisi dan meningkatkan kemampuan mereka.
offline, global - Sebuah tantangan baru dalam bidang coding AI yang disebut K Prize memberikan tolok ukur baru untuk menguji kemampuan AI dalam menyelesaikan masalah pemrograman. K Prize dibuat untuk melawan masalah benchmark yang terlalu mudah dan adanya pelatihan pada data tes yang sudah ada.
Tantangan ini dijalankan secara offline dan menggunakan masalah pemrograman baru dari GitHub yang belum pernah muncul sebelumnya, sehingga menghindari pelatihan langsung pada soal tersebut. Ini membuat tantangan menjadi jauh lebih sulit dibanding benchmark lain seperti SWE-Bench.
Pemenang pertama K Prize adalah seorang prompt engineer dari Brasil bernama Eduardo Rocha de Andrade dengan skor benar hanya 7.5%, yang menunjukkan betapa sulitnya tes ini bagi AI saat ini. Hadiah yang diberikan senilai Rp 822.25 ribu ($50.000) .
Penggagas K Prize, Andy Konwinski, menyatakan bahwa tantangan ini penting untuk memberi gambaran yang lebih realistis tentang kemampuan AI dan membuka peluang bagi model AI open source kecil yang dapat bersaing secara adil tanpa komputasi besar.
Para ahli, termasuk Sayash Kapoor, mendukung keberadaan K Prize untuk membantu memahami apakah skor tinggi pada benchmark sebelumnya seperti SWE-Bench terjadi karena kontaminasi data atau strategi khusus dalam mengikuti leaderboard.
Sumber: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Pertanyaan Terkait

Q
Siapa yang memenangkan K Prize?
A
Eduardo Rocha de Andrade adalah pemenang K Prize.
Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?
A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.
Q
Apa tujuan dari K Prize?
A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman yang diambil dari isu-isu GitHub.
Q
Bagaimana K Prize berbeda dari SWE-Bench?
A
K Prize dirancang sebagai versi bebas kontaminasi dari SWE-Bench, menggunakan sistem entri waktu untuk menghindari pelatihan spesifik benchmark.
Q
Apa yang diharapkan oleh Andy Konwinski dari tantangan ini?
A
Andy Konwinski berharap tantangan ini dapat memberikan evaluasi yang lebih akurat terhadap kemampuan model AI.

Artikel Serupa

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AITechCrunch
Teknologi
3 bulan lalu
52 dibaca

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AITechCrunch
Teknologi
3 bulan lalu
88 dibaca

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI

Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.TechCrunch
Teknologi
4 bulan lalu
157 dibaca

Uji AGI baru yang menantang membuat kebanyakan model AI kebingungan.

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
4 bulan lalu
70 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.

Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.TechCrunch
Teknologi
5 bulan lalu
108 dibaca

Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.

Mengapa IQ adalah tes yang buruk untuk AITechCrunch
Teknologi
5 bulan lalu
146 dibaca

Mengapa IQ adalah tes yang buruk untuk AI