Tanya Pomodo
Semua Artikel
Teknologi
Bisnis
Sains
Finansial
Semua
entitas
SWE-BENCH
SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Teknologi
24 hari lalu
296 dibaca
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
Teknologi
2 bulan lalu
262 dibaca
Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Teknologi
2 bulan lalu
201 dibaca
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Teknologi
5 bulan lalu
149 dibaca
Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps