Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil

To discuss the high costs and challenges associated with benchmarking reasoning AI models compared to non-reasoning models.

10 Apr 2025, 20.30 WIB
127 dibaca
Share
Ikhtisar 15 Detik
  • Model reasoning cenderung lebih mahal untuk diuji dibandingkan model non-reasoning.
  • Biaya evaluasi meningkat seiring dengan kompleksitas benchmark yang digunakan.
  • Akses gratis ke model dapat mempengaruhi integritas hasil evaluasi.
United States - AI labs like OpenAI claim that their reasoning AI models are more capable in specific domains, but these models are expensive to benchmark, making independent verification difficult. Artificial Analysis, a third-party AI testing outfit, has spent significantly more on evaluating reasoning models compared to non-reasoning models.
Baca juga: OpenAI Luncurkan GPT-5 dengan Harga Murah, Buka Perang Harga AI
The high costs are mainly due to the large number of tokens generated by reasoning models during benchmarking tests. Modern benchmarks often involve complex, multi-step tasks that elicit a lot of tokens, adding to the expense.
Experts like George Cameron and Ross Taylor highlight the challenges and rising costs of benchmarking, which could hinder academic research. Despite the high costs, the performance of AI models has improved over time, although evaluating the best models remains expensive.
--------------------
Analisis Kami: Biaya benchmarking yang sangat mahal untuk model reasoning menjadi penghalang besar dalam pengembangan AI yang transparan dan bisa diuji secara adil oleh komunitas luas. Jika biaya ini tidak dikendalikan, risiko dominasi narasi oleh lab AI besar makin besar dan inovasi bisa semakin terkunci di tangan segelintir pihak saja.
--------------------
Analisis Ahli:
George Cameron: Artificial Analysis akan meningkatkan anggaran benchmarking karena tren rilis model reasoning semakin meningkat, menunjukkan kebutuhan untuk evaluasi terus menerus dalam skala besar.
Ross Taylor: Kesulitan reproduksi hasil benchmarking karena biaya yang sangat tinggi membuat keilmuan AI jadi meragukan dan menimbulkan isu validitas ilmiah.
Jean-Stanislas Denain: Meskipun biaya per token naik, efisiensi model makin meningkat sehingga biaya keseluruhan untuk mencapai performa tertentu malah turun dari waktu ke waktu.
--------------------
Baca juga: OpenAI Luncurkan GPT-5, AI Pintar yang Lebih Cepat dan Andal untuk Semua
What's Next: Biaya benchmarking model reasoning AI akan terus meningkat seiring dengan meningkatnya kompleksitas dan kemampuan model, sehingga kemungkinan hanya lembaga besar dengan anggaran besar yang mampu mendukung evaluasi independen secara menyeluruh.
Referensi:
[1] https://techcrunch.com/2025/04/10/the-rise-of-ai-reasoning-models-is-making-benchmarking-more-expensive/

Pertanyaan Terkait

Q
Mengapa model reasoning lebih mahal untuk diuji?
A
Model reasoning lebih mahal untuk diuji karena mereka menghasilkan banyak token selama evaluasi, yang meningkatkan biaya penggunaan.
Q
Apa yang dimaksud dengan token dalam konteks model AI?
A
Token adalah unit teks yang digunakan dalam pemrosesan bahasa alami, seperti kata atau bagian dari kata, yang dihitung untuk menentukan biaya penggunaan model.
Q
Siapa yang mengembangkan model Claude?
A
Model Claude dikembangkan oleh Anthropic, yang merupakan organisasi yang fokus pada pengembangan AI yang aman.
Q
Apa tujuan dari Artificial Analysis?
A
Tujuan dari Artificial Analysis adalah untuk melakukan pengujian dan evaluasi terhadap model-model AI untuk memberikan wawasan tentang kinerja mereka.
Q
Mengapa akses model gratis dapat mempengaruhi hasil evaluasi?
A
Akses model gratis dapat mempengaruhi hasil evaluasi karena dapat menciptakan bias dalam penilaian, meskipun tidak ada bukti manipulasi.

Artikel Serupa

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas
Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas
Dari TechCrunch
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Dari TechCrunch
Model AI Reasoning Kunci Masa Depan: Kolaborasi dan Benchmark yang Lebih Baik
Model AI Reasoning Kunci Masa Depan: Kolaborasi dan Benchmark yang Lebih Baik
Dari TechCrunch
Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat
Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat
Dari TechCrunch
GPT-4.5 OpenAI: Akhir Era ‘Model Lebih Besar’ dan Awal Kecerdasan Baru
GPT-4.5 OpenAI: Akhir Era ‘Model Lebih Besar’ dan Awal Kecerdasan Baru
Dari Axios
OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI
OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI
Dari TechCrunch
Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan ValiditasTechCrunch
Teknologi
3 bulan lalu
57 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?TechCrunch
Teknologi
3 bulan lalu
92 dibaca

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?

Model AI Reasoning Kunci Masa Depan: Kolaborasi dan Benchmark yang Lebih BaikTechCrunch
Teknologi
5 bulan lalu
147 dibaca

Model AI Reasoning Kunci Masa Depan: Kolaborasi dan Benchmark yang Lebih Baik

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih CepatTechCrunch
Teknologi
5 bulan lalu
70 dibaca

Noam Brown Ungkap Model AI Reasoning Bisa Hadir 20 Tahun Lebih Cepat

GPT-4.5 OpenAI: Akhir Era ‘Model Lebih Besar’ dan Awal Kecerdasan BaruAxios
Teknologi
5 bulan lalu
135 dibaca

GPT-4.5 OpenAI: Akhir Era ‘Model Lebih Besar’ dan Awal Kecerdasan Baru

OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AITechCrunch
Teknologi
5 bulan lalu
108 dibaca

OpenAI Luncurkan GPT-4.5, Model Besar tapi Bukan Terobosan Baru AI