Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik
Courtesy of TechCrunch
Teknologi
Kecerdasan Buatan

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik

Menciptakan tolok ukur AI yang lebih relevan dan mencerminkan kasus penggunaan dunia nyata di berbagai industri.

10 Apr 2025, 00.32 WIB
90 dibaca
Share
Ikhtisar 15 Detik
  • OpenAI meluncurkan program baru untuk memperbaiki evaluasi model AI.
  • Benchmark yang ada saat ini sering kali tidak mencerminkan kinerja dunia nyata.
  • Program ini akan melibatkan startup untuk menciptakan evaluasi yang lebih relevan dan spesifik industri.
Amerika Serikat - OpenAI dan banyak laboratorium AI lainnya berpendapat bahwa tolok ukur AI saat ini tidak efektif dan ingin memperbaikinya melalui program baru yang disebut OpenAI Pioneers Program. Program ini akan fokus pada pembuatan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan membantu menilai kinerja model dalam lingkungan yang praktis dan berisiko tinggi.
Baca juga: Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Banyak tolok ukur AI yang digunakan saat ini mengukur kinerja pada tugas-tugas yang tidak relevan atau dapat dimanipulasi. Melalui Program Pioneers, OpenAI berharap untuk menciptakan tolok ukur untuk domain spesifik seperti hukum, keuangan, asuransi, kesehatan, dan akuntansi. Dalam beberapa bulan mendatang, OpenAI akan bekerja dengan beberapa perusahaan untuk merancang tolok ukur yang disesuaikan dan membagikannya secara publik.
Perusahaan dalam program ini akan bekerja dengan tim OpenAI untuk menciptakan perbaikan model melalui teknik reinforcement fine tuning. Namun, masih menjadi pertanyaan apakah komunitas AI akan menerima tolok ukur yang diciptakan dengan dana dari OpenAI. Meskipun demikian, OpenAI berharap program ini dapat membantu meningkatkan dampak AI di dunia nyata.
--------------------
Analisis Kami: Pendekatan OpenAI untuk membuat tolok ukur yang lebih praktis sangat diperlukan untuk mengembangkan AI yang berguna di dunia nyata, tapi risiko bias dan ketergantungan pada satu pihak perlu diawasi ketat. Transparansi dan keterlibatan komunitas yang lebih luas harus dijadikan prioritas agar benchmark ini benar-benar dapat dipercaya dan diadopsi secara luas.
--------------------
Analisis Ahli:
Andrej Karpathy: Benchmark AI yang spesifik domain sangat penting untuk mempercepat pengembangan aplikasi praktis, tapi pembuatannya harus terbuka dan partisipatif agar tidak memunculkan dominasi satu entitas.
Yoshua Bengio: Reinforcement fine tuning bisa membuat model lebih akurat untuk tugas tertentu, namun kita harus waspada agar evaluasi dan pengembangan tidak menjadi sempit dan mengecilkan kualitas generalisasi model.
--------------------
Baca juga: K Prize Tantang AI Pemrogram dengan Soal Sulit, Pemenang Raih Skor 7.5%
What's Next: Tolok ukur AI yang lebih domain-spesifik akan mulai digunakan secara luas, namun kemungkinan akan memicu perdebatan tentang independensi dan objektivitas karena keterlibatan langsung OpenAI dalam pembuatannya.
Referensi:
[1] https://techcrunch.com/2025/04/09/openai-launches-program-to-design-new-domain-specific-ai-benchmarks/

Pertanyaan Terkait

Q
Apa tujuan dari OpenAI Pioneers Program?
A
Tujuan dari OpenAI Pioneers Program adalah untuk menciptakan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan meningkatkan dampaknya.
Q
Mengapa benchmark AI saat ini dianggap rusak?
A
Benchmark AI saat ini dianggap rusak karena banyak yang mengukur kinerja pada tugas yang tidak relevan atau dapat dimanipulasi.
Q
Apa yang akan dilakukan oleh perusahaan yang terlibat dalam program ini?
A
Perusahaan yang terlibat dalam program ini akan bekerja sama dengan tim OpenAI untuk menciptakan perbaikan model melalui fine tuning yang diperkuat.
Q
Apa saja bidang spesifik yang akan difokuskan dalam evaluasi?
A
Bidang spesifik yang akan difokuskan dalam evaluasi termasuk hukum, keuangan, asuransi, kesehatan, dan akuntansi.
Q
Bagaimana OpenAI berencana untuk membagikan benchmark yang dibuat?
A
OpenAI berencana untuk membagikan benchmark yang dibuat secara publik bersama dengan evaluasi spesifik industri.

Artikel Serupa

Harvey Gunakan AI dari Google dan Anthropic, Bersaing dengan OpenAI
Harvey Gunakan AI dari Google dan Anthropic, Bersaing dengan OpenAI
Dari TechCrunch
Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer
Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer
Dari TechCrunch
Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas
Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas
Dari TechCrunch
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?
Dari TechCrunch
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil
Dari TechCrunch
Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan
Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan
Dari TheVerge
Harvey Gunakan AI dari Google dan Anthropic, Bersaing dengan OpenAITechCrunch
Teknologi
3 bulan lalu
150 dibaca

Harvey Gunakan AI dari Google dan Anthropic, Bersaing dengan OpenAI

Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark PopulerTechCrunch
Teknologi
3 bulan lalu
75 dibaca

Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan ValiditasTechCrunch
Teknologi
3 bulan lalu
56 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?TechCrunch
Teknologi
3 bulan lalu
91 dibaca

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi HasilTechCrunch
Teknologi
4 bulan lalu
127 dibaca

Biaya Tinggi Pengujian Model Reasoning AI Mengancam Transparansi Hasil

Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang DisembunyikanTheVerge
Teknologi
4 bulan lalu
163 dibaca

Kontroversi Llama 4 Meta: Model AI Hebat tapi Ada yang Disembunyikan