Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Courtesy of TechCrunch

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Menghadirkan benchmark yang sulit dan bebas kontaminasi untuk menilai kemampuan model AI dalam memecahkan masalah pemrograman dunia nyata serta mendorong pengembangan model AI terbuka yang lebih baik.

24 Jul 2025, 07.00 WIB
200 dibaca
Share
Ikhtisar 15 Detik
  • K Prize menunjukkan bahwa benchmark yang lebih sulit diperlukan untuk mengevaluasi kemampuan AI.
  • Eduardo Rocha de Andrade memenangkan K Prize meskipun hanya menjawab 7,5% dari pertanyaan dengan benar.
  • Tantangan ini menciptakan kesempatan bagi model open source untuk berkompetisi dan meningkatkan kemampuan mereka.
offline, global - Sebuah tantangan baru dalam bidang coding AI yang disebut K Prize memberikan tolok ukur baru untuk menguji kemampuan AI dalam menyelesaikan masalah pemrograman. K Prize dibuat untuk melawan masalah benchmark yang terlalu mudah dan adanya pelatihan pada data tes yang sudah ada.
Tantangan ini dijalankan secara offline dan menggunakan masalah pemrograman baru dari GitHub yang belum pernah muncul sebelumnya, sehingga menghindari pelatihan langsung pada soal tersebut. Ini membuat tantangan menjadi jauh lebih sulit dibanding benchmark lain seperti SWE-Bench.
Pemenang pertama K Prize adalah seorang prompt engineer dari Brasil bernama Eduardo Rocha de Andrade dengan skor benar hanya 7.5%, yang menunjukkan betapa sulitnya tes ini bagi AI saat ini. Hadiah yang diberikan senilai Rp 822.25 ribu ($50.000) .
Penggagas K Prize, Andy Konwinski, menyatakan bahwa tantangan ini penting untuk memberi gambaran yang lebih realistis tentang kemampuan AI dan membuka peluang bagi model AI open source kecil yang dapat bersaing secara adil tanpa komputasi besar.
Para ahli, termasuk Sayash Kapoor, mendukung keberadaan K Prize untuk membantu memahami apakah skor tinggi pada benchmark sebelumnya seperti SWE-Bench terjadi karena kontaminasi data atau strategi khusus dalam mengikuti leaderboard.
Referensi:
[1] https://techcrunch.com/2025/07/23/a-new-ai-coding-challenge-just-published-its-first-results-and-they-arent-pretty/

Analisis Kami

"Benchmark yang bebas kontaminasi adalah langkah krusial supaya kemajuan AI betul-betul terukur dan tidak sekadar hasil training berulang-ulang. Namun, kami perlu hati-hati memastikan data soal selalu relevan dengan masalah pemrograman nyata agar tidak menjadi terlalu sulit dan menjauhkan potensi kolaborasi AI demi produktivitas."

Analisis Ahli

Sayash Kapoor
"Benchmark baru sangat penting karena tanpa itu kita tidak bisa benar-benar mengidentifikasi apakah model AI hanya menargetkan leaderboard atau memang bertumbuh secara nyata."

Prediksi Kami

Dalam beberapa bulan ke depan, semakin banyak model AI yang akan terus diuji dan berusaha meningkatkan skor di K Prize, mendorong inovasi pada model AI yang lebih efisien dan berorientasi pada aplikasi dunia nyata.

Pertanyaan Terkait

Q
Siapa yang memenangkan K Prize?
A
Eduardo Rocha de Andrade adalah pemenang K Prize.
Q
Apa yang dimenangkan oleh Eduardo Rocha de Andrade?
A
Eduardo Rocha de Andrade memenangkan hadiah sebesar $50,000.
Q
Apa tujuan dari K Prize?
A
Tujuan dari K Prize adalah untuk menguji kemampuan model AI dalam menyelesaikan masalah pemrograman yang diambil dari isu-isu GitHub.
Q
Bagaimana K Prize berbeda dari SWE-Bench?
A
K Prize dirancang sebagai versi bebas kontaminasi dari SWE-Bench, menggunakan sistem entri waktu untuk menghindari pelatihan spesifik benchmark.
Q
Apa yang diharapkan oleh Andy Konwinski dari tantangan ini?
A
Andy Konwinski berharap tantangan ini dapat memberikan evaluasi yang lebih akurat terhadap kemampuan model AI.

Artikel Serupa

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan ValiditasTechCrunch
Teknologi
4 bulan lalu
189 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan SpesifikTechCrunch
Teknologi
5 bulan lalu
27 dibaca

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AITechCrunch
Teknologi
5 bulan lalu
127 dibaca

Tes ARC-AGI-2: Tolok Ukur Baru yang Sulit untuk Ukur Kecerdasan AI

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan DigitalTechCrunch
Teknologi
6 bulan lalu
33 dibaca

Minecraft: Cara Kreatif Menilai Kemampuan AI Generatif Lewat Bangunan Digital

Teka-Teki Sunday Puzzle Jadi Ujian Baru untuk Kecerdasan Buatan yang Lebih ManusiawiTechCrunch
Teknologi
7 bulan lalu
43 dibaca

Teka-Teki Sunday Puzzle Jadi Ujian Baru untuk Kecerdasan Buatan yang Lebih Manusiawi

Mengapa Tes IQ Bukan Tolok Ukur Tepat untuk Kemampuan AI Saat IniTechCrunch
Teknologi
7 bulan lalu
204 dibaca

Mengapa Tes IQ Bukan Tolok Ukur Tepat untuk Kemampuan AI Saat Ini