TerminalBench adalah tolok ukur yang digunakan untuk mengukur kemampuan alat berbasis terminal dalam menyelesaikan masalah pengembangan perangkat lunak. Ini menilai bagaimana agen dapat berinteraksi dengan lingkungan pengembangan dan menyelesaikan tugas-tugas yang kompleks.