Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
SCMP
Teknologi
24 hari lalu
296 dibaca

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
YahooFinance
Teknologi
2 bulan lalu
262 dibaca

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
TechCrunch
Teknologi
2 bulan lalu
201 dibaca

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps
TechCrunch
Teknologi
5 bulan lalu
149 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps