OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI
Courtesy of TechCrunch

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI

Menciptakan tolok ukur AI yang lebih relevan dan mencerminkan kasus penggunaan dunia nyata di berbagai industri.

10 Apr 2025, 00.32 WIB
88 dibaca
Share
Ikhtisar 15 Detik
  • OpenAI meluncurkan program baru untuk memperbaiki evaluasi model AI.
  • Benchmark yang ada saat ini sering kali tidak mencerminkan kinerja dunia nyata.
  • Program ini akan melibatkan startup untuk menciptakan evaluasi yang lebih relevan dan spesifik industri.
Amerika Serikat - OpenAI dan banyak laboratorium AI lainnya berpendapat bahwa tolok ukur AI saat ini tidak efektif dan ingin memperbaikinya melalui program baru yang disebut OpenAI Pioneers Program. Program ini akan fokus pada pembuatan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan membantu menilai kinerja model dalam lingkungan yang praktis dan berisiko tinggi.
Banyak tolok ukur AI yang digunakan saat ini mengukur kinerja pada tugas-tugas yang tidak relevan atau dapat dimanipulasi. Melalui Program Pioneers, OpenAI berharap untuk menciptakan tolok ukur untuk domain spesifik seperti hukum, keuangan, asuransi, kesehatan, dan akuntansi. Dalam beberapa bulan mendatang, OpenAI akan bekerja dengan beberapa perusahaan untuk merancang tolok ukur yang disesuaikan dan membagikannya secara publik.
Perusahaan dalam program ini akan bekerja dengan tim OpenAI untuk menciptakan perbaikan model melalui teknik reinforcement fine tuning. Namun, masih menjadi pertanyaan apakah komunitas AI akan menerima tolok ukur yang diciptakan dengan dana dari OpenAI. Meskipun demikian, OpenAI berharap program ini dapat membantu meningkatkan dampak AI di dunia nyata.
Sumber: https://techcrunch.com/2025/04/09/openai-launches-program-to-design-new-domain-specific-ai-benchmarks/

Pertanyaan Terkait

Q
Apa tujuan dari OpenAI Pioneers Program?
A
Tujuan dari OpenAI Pioneers Program adalah untuk menciptakan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan meningkatkan dampaknya.
Q
Mengapa benchmark AI saat ini dianggap rusak?
A
Benchmark AI saat ini dianggap rusak karena banyak yang mengukur kinerja pada tugas yang tidak relevan atau dapat dimanipulasi.
Q
Apa yang akan dilakukan oleh perusahaan yang terlibat dalam program ini?
A
Perusahaan yang terlibat dalam program ini akan bekerja sama dengan tim OpenAI untuk menciptakan perbaikan model melalui fine tuning yang diperkuat.
Q
Apa saja bidang spesifik yang akan difokuskan dalam evaluasi?
A
Bidang spesifik yang akan difokuskan dalam evaluasi termasuk hukum, keuangan, asuransi, kesehatan, dan akuntansi.
Q
Bagaimana OpenAI berencana untuk membagikan benchmark yang dibuat?
A
OpenAI berencana untuk membagikan benchmark yang dibuat secara publik bersama dengan evaluasi spesifik industri.

Artikel Serupa

Kontroversi di Balik Chatbot Arena: Dugaan Ketidakadilan dalam Penilaian AITechCrunch
Teknologi
3 bulan lalu
70 dibaca

Kontroversi di Balik Chatbot Arena: Dugaan Ketidakadilan dalam Penilaian AI

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AITechCrunch
Teknologi
3 bulan lalu
53 dibaca

Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI

Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan PertanyaanTechCrunch
Teknologi
3 bulan lalu
90 dibaca

Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan Pertanyaan

High Costs and Challenges of Benchmarking Reasoning AI ModelsTechCrunch
Teknologi
3 bulan lalu
124 dibaca

High Costs and Challenges of Benchmarking Reasoning AI Models

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan MaverickTheVerge
Teknologi
3 bulan lalu
159 dibaca

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan Maverick

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
4 bulan lalu
70 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.