SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Teknologi
9 hari lalu
Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Teknologi
3 bulan lalu
Kontroversi Benchmarking AI: Gemini vs Claude dalam Game Pokémon
Teknologi
9 hari lalu
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Tentang Halaman Ini
SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.