Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench VerifiedSCMP
Teknologi
8 hari lalu

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AITechCrunch
Teknologi
1 bulan lalu

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat IniYahooFinance
Teknologi
1 bulan lalu

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan MinimapsTechCrunch
Teknologi
5 bulan lalu

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps

Tentang Halaman Ini

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.