Tanya Pomodo
Semua Artikel
Teknologi
Bisnis
Sains
Finansial
Semua
entitas
SWE-BENCH
SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Daftar
atau
Masuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Teknologi
2 bulan lalu
144 dibaca
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
Teknologi
4 bulan lalu
170 dibaca
Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Teknologi
4 bulan lalu
236 dibaca
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Teknologi
7 bulan lalu
268 dibaca
Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps