Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
High Costs and Challenges of Benchmarking Reasoning AI Models
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

High Costs and Challenges of Benchmarking Reasoning AI Models

To discuss the high costs and challenges associated with benchmarking reasoning AI models compared to non-reasoning models.

10 Apr 2025, 20.30 WIB
123 dibaca
Share
Ikhtisar 15 Detik
  • Model reasoning cenderung lebih mahal untuk diuji dibandingkan model non-reasoning.
  • Biaya evaluasi meningkat seiring dengan kompleksitas benchmark yang digunakan.
  • Akses gratis ke model dapat mempengaruhi integritas hasil evaluasi.
United States - AI labs like OpenAI claim that their reasoning AI models are more capable in specific domains, but these models are expensive to benchmark, making independent verification difficult. Artificial Analysis, a third-party AI testing outfit, has spent significantly more on evaluating reasoning models compared to non-reasoning models.
Baca juga: Kemajuan Model Reasoning AI Bisa Melambat Dalam Waktu Dekat, Kata Epoch AI
The high costs are mainly due to the large number of tokens generated by reasoning models during benchmarking tests. Modern benchmarks often involve complex, multi-step tasks that elicit a lot of tokens, adding to the expense.
Baca juga: Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Experts like George Cameron and Ross Taylor highlight the challenges and rising costs of benchmarking, which could hinder academic research. Despite the high costs, the performance of AI models has improved over time, although evaluating the best models remains expensive.
Sumber: https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expensive/

Pertanyaan Terkait

Q
Mengapa model reasoning lebih mahal untuk diuji?
A
Model reasoning lebih mahal untuk diuji karena mereka menghasilkan banyak token selama evaluasi, yang meningkatkan biaya penggunaan.
Q
Apa yang dimaksud dengan token dalam konteks model AI?
A
Token adalah unit teks yang digunakan dalam pemrosesan bahasa alami, seperti kata atau bagian dari kata, yang dihitung untuk menentukan biaya penggunaan model.
Q
Siapa yang mengembangkan model Claude?
A
Model Claude dikembangkan oleh Anthropic, yang merupakan organisasi yang fokus pada pengembangan AI yang aman.
Q
Apa tujuan dari Artificial Analysis?
A
Tujuan dari Artificial Analysis adalah untuk melakukan pengujian dan evaluasi terhadap model-model AI untuk memberikan wawasan tentang kinerja mereka.
Q
Mengapa akses model gratis dapat mempengaruhi hasil evaluasi?
A
Akses model gratis dapat mempengaruhi hasil evaluasi karena dapat menciptakan bias dalam penilaian, meskipun tidak ada bukti manipulasi.

Artikel Serupa

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.
OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.
Dari TechCrunch
OpenAI meluncurkan GPT-4.5 'Orion,' model AI terbesar yang pernah ada.
OpenAI meluncurkan GPT-4.5 'Orion,' model AI terbesar yang pernah ada.
Dari TechCrunch
Peneliti AS mengembangkan model penalaran AI dengan biaya hanya Rp 822.25 ribu ($50) , menantang OpenAI dan DeepSeek.
Peneliti AS mengembangkan model penalaran AI dengan biaya hanya Rp 822.25 ribu ($50) , menantang OpenAI dan DeepSeek.
Dari InterestingEngineering
Para peneliti menciptakan pesaing terbuka untuk model 'penalaran' o1 milik OpenAI dengan biaya kurang dari Rp 822.25 ribu ($50) .
Para peneliti menciptakan pesaing terbuka untuk model 'penalaran' o1 milik OpenAI dengan biaya kurang dari Rp 822.25 ribu ($50) .
Dari TechCrunch
OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.
OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.
Dari TechCrunch
Peneliti merilis kode sumber Sky-T1, sebuah model AI 'penalaran' yang dapat dilatih dengan biaya kurang dari Rp 7.40 juta ($450) .
Peneliti merilis kode sumber Sky-T1, sebuah model AI 'penalaran' yang dapat dilatih dengan biaya kurang dari Rp 7.40 juta ($450) .
Dari TechCrunch
OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
4 bulan lalu
65 dibaca

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.

OpenAI meluncurkan GPT-4.5 'Orion,' model AI terbesar yang pernah ada.TechCrunch
Teknologi
5 bulan lalu
92 dibaca

OpenAI meluncurkan GPT-4.5 'Orion,' model AI terbesar yang pernah ada.

Peneliti AS mengembangkan model penalaran AI dengan biaya hanya Rp 822.25 ribu ($50) , menantang OpenAI dan DeepSeek.InterestingEngineering
Teknologi
5 bulan lalu
258 dibaca

Peneliti AS mengembangkan model penalaran AI dengan biaya hanya Rp 822.25 ribu ($50) , menantang OpenAI dan DeepSeek.

Para peneliti menciptakan pesaing terbuka untuk model 'penalaran' o1 milik OpenAI dengan biaya kurang dari Rp 822.25 ribu ($50) .TechCrunch
Teknologi
5 bulan lalu
167 dibaca

Para peneliti menciptakan pesaing terbuka untuk model 'penalaran' o1 milik OpenAI dengan biaya kurang dari Rp 822.25 ribu ($50) .

OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.TechCrunch
Teknologi
6 bulan lalu
167 dibaca

OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.

Peneliti merilis kode sumber Sky-T1, sebuah model AI 'penalaran' yang dapat dilatih dengan biaya kurang dari Rp 7.40 juta ($450) .TechCrunch
Teknologi
6 bulan lalu
169 dibaca

Peneliti merilis kode sumber Sky-T1, sebuah model AI 'penalaran' yang dapat dilatih dengan biaya kurang dari Rp 7.40 juta ($450) .