Courtesy of TechCrunch

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Menghadirkan benchmark yang sulit dan bebas kontaminasi untuk menilai kemampuan model AI dalam memecahkan masalah pemrograman dunia nyata serta mendorong pengembangan model AI terbuka yang lebih baik.

24 Jul 2025, 07.00 WIB

218 dibaca

Ikhtisar 15 Detik

K Prize menunjukkan bahwa benchmark yang lebih sulit diperlukan untuk mengevaluasi kemampuan AI.
Eduardo Rocha de Andrade memenangkan K Prize meskipun hanya menjawab 7,5% dari pertanyaan dengan benar.
Tantangan ini menciptakan kesempatan bagi model open source untuk berkompetisi dan meningkatkan kemampuan mereka.

offline, global - Sebuah tantangan baru dalam bidang coding AI yang disebut K Prize memberikan tolok ukur baru untuk menguji kemampuan AI dalam menyelesaikan masalah pemrograman. K Prize dibuat untuk melawan masalah benchmark yang terlalu mudah dan adanya pelatihan pada data tes yang sudah ada.

Tantangan ini dijalankan secara offline dan menggunakan masalah pemrograman baru dari GitHub yang belum pernah muncul sebelumnya, sehingga menghindari pelatihan langsung pada soal tersebut. Ini membuat tantangan menjadi jauh lebih sulit dibanding benchmark lain seperti SWE-Bench.

Pemenang pertama K Prize adalah seorang prompt engineer dari Brasil bernama Eduardo Rocha de Andrade dengan skor benar hanya 7.5%, yang menunjukkan betapa sulitnya tes ini bagi AI saat ini. Hadiah yang diberikan senilai Rp 835.00 ribu ($50.000) .

Penggagas K Prize, Andy Konwinski, menyatakan bahwa tantangan ini penting untuk memberi gambaran yang lebih realistis tentang kemampuan AI dan membuka peluang bagi model AI open source kecil yang dapat bersaing secara adil tanpa komputasi besar.

Para ahli, termasuk Sayash Kapoor, mendukung keberadaan K Prize untuk membantu memahami apakah skor tinggi pada benchmark sebelumnya seperti SWE-Bench terjadi karena kontaminasi data atau strategi khusus dalam mengikuti leaderboard.

Referensi:
[1] https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Analisis Ahli

Sayash Kapoor

"Benchmark baru sangat penting karena tanpa itu kita tidak bisa benar-benar mengidentifikasi apakah model AI hanya menargetkan leaderboard atau memang bertumbuh secara nyata."

Analisis Kami

"Benchmark yang bebas kontaminasi adalah langkah krusial supaya kemajuan AI betul-betul terukur dan tidak sekadar hasil training berulang-ulang. Namun, kami perlu hati-hati memastikan data soal selalu relevan dengan masalah pemrograman nyata agar tidak menjadi terlalu sulit dan menjauhkan potensi kolaborasi AI demi produktivitas."

Prediksi Kami

Dalam beberapa bulan ke depan, semakin banyak model AI yang akan terus diuji dan berusaha meningkatkan skor di K Prize, mendorong inovasi pada model AI yang lebih efisien dan berorientasi pada aplikasi dunia nyata.