Courtesy of TechCrunch
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Menghadirkan benchmark yang sulit dan bebas kontaminasi untuk menilai kemampuan model AI dalam memecahkan masalah pemrograman dunia nyata serta mendorong pengembangan model AI terbuka yang lebih baik.
24 Jul 2025, 07.00 WIB
24 dibaca
Share
Ikhtisar 15 Detik
- K Prize menunjukkan bahwa benchmark yang lebih sulit diperlukan untuk mengevaluasi kemampuan AI.
- Eduardo Rocha de Andrade memenangkan K Prize meskipun hanya menjawab 7,5% dari pertanyaan dengan benar.
- Tantangan ini menciptakan kesempatan bagi model open source untuk berkompetisi dan meningkatkan kemampuan mereka.
offline, global - Sebuah tantangan baru dalam bidang coding AI yang disebut K Prize memberikan tolok ukur baru untuk menguji kemampuan AI dalam menyelesaikan masalah pemrograman. K Prize dibuat untuk melawan masalah benchmark yang terlalu mudah dan adanya pelatihan pada data tes yang sudah ada.
Tantangan ini dijalankan secara offline dan menggunakan masalah pemrograman baru dari GitHub yang belum pernah muncul sebelumnya, sehingga menghindari pelatihan langsung pada soal tersebut. Ini membuat tantangan menjadi jauh lebih sulit dibanding benchmark lain seperti SWE-Bench.
Pemenang pertama K Prize adalah seorang prompt engineer dari Brasil bernama Eduardo Rocha de Andrade dengan skor benar hanya 7.5%, yang menunjukkan betapa sulitnya tes ini bagi AI saat ini. Hadiah yang diberikan senilai Rp 822.25 ribu ($50.000) .
Penggagas K Prize, Andy Konwinski, menyatakan bahwa tantangan ini penting untuk memberi gambaran yang lebih realistis tentang kemampuan AI dan membuka peluang bagi model AI open source kecil yang dapat bersaing secara adil tanpa komputasi besar.
Para ahli, termasuk Sayash Kapoor, mendukung keberadaan K Prize untuk membantu memahami apakah skor tinggi pada benchmark sebelumnya seperti SWE-Bench terjadi karena kontaminasi data atau strategi khusus dalam mengikuti leaderboard.
Sumber: https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/
Pertanyaan Terkait
Q
Siapa yang memenangkan K Prize?A
Eduardo Rocha de Andrade adalah pemenang K Prize.Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.Q
Apa tujuan dari K Prize?A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman yang diambil dari isu-isu GitHub.Q
Bagaimana K Prize berbeda dari SWE-Bench?A
K Prize dirancang sebagai versi bebas kontaminasi dari SWE-Bench, menggunakan sistem entri waktu untuk menghindari pelatihan spesifik benchmark.Q
Apa yang diharapkan oleh Andy Konwinski dari tantangan ini?A
Andy Konwinski berharap tantangan ini dapat memberikan evaluasi yang lebih akurat terhadap kemampuan model AI.