Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
DaftaratauMasuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
SCMP
Teknologi
2 bulan lalu
144 dibaca

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
YahooFinance
Teknologi
4 bulan lalu
170 dibaca

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
TechCrunch
Teknologi
4 bulan lalu
236 dibaca

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps
TechCrunch
Teknologi
7 bulan lalu
268 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps