Courtesy of TechCrunch

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI

Menciptakan tolok ukur AI yang lebih relevan dan mencerminkan kasus penggunaan dunia nyata di berbagai industri.

10 Apr 2025, 00.32 WIB

88 dibaca

Ikhtisar 15 Detik

OpenAI meluncurkan program baru untuk memperbaiki evaluasi model AI.
Benchmark yang ada saat ini sering kali tidak mencerminkan kinerja dunia nyata.
Program ini akan melibatkan startup untuk menciptakan evaluasi yang lebih relevan dan spesifik industri.

Amerika Serikat - OpenAI dan banyak laboratorium AI lainnya berpendapat bahwa tolok ukur AI saat ini tidak efektif dan ingin memperbaikinya melalui program baru yang disebut OpenAI Pioneers Program. Program ini akan fokus pada pembuatan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan membantu menilai kinerja model dalam lingkungan yang praktis dan berisiko tinggi.

Banyak tolok ukur AI yang digunakan saat ini mengukur kinerja pada tugas-tugas yang tidak relevan atau dapat dimanipulasi. Melalui Program Pioneers, OpenAI berharap untuk menciptakan tolok ukur untuk domain spesifik seperti hukum, keuangan, asuransi, kesehatan, dan akuntansi. Dalam beberapa bulan mendatang, OpenAI akan bekerja dengan beberapa perusahaan untuk merancang tolok ukur yang disesuaikan dan membagikannya secara publik.

Perusahaan dalam program ini akan bekerja dengan tim OpenAI untuk menciptakan perbaikan model melalui teknik reinforcement fine tuning. Namun, masih menjadi pertanyaan apakah komunitas AI akan menerima tolok ukur yang diciptakan dengan dana dari OpenAI. Meskipun demikian, OpenAI berharap program ini dapat membantu meningkatkan dampak AI di dunia nyata.

Sumber: https://techcrunch.com/2025/04/09/openai-launches-program-to-design-new-domain-specific-ai-benchmarks/

Pertanyaan Terkait

Apa tujuan dari OpenAI Pioneers Program?

Tujuan dari OpenAI Pioneers Program adalah untuk menciptakan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan meningkatkan dampaknya.

Mengapa benchmark AI saat ini dianggap rusak?

Benchmark AI saat ini dianggap rusak karena banyak yang mengukur kinerja pada tugas yang tidak relevan atau dapat dimanipulasi.

Apa yang akan dilakukan oleh perusahaan yang terlibat dalam program ini?

Perusahaan yang terlibat dalam program ini akan bekerja sama dengan tim OpenAI untuk menciptakan perbaikan model melalui fine tuning yang diperkuat.

Apa saja bidang spesifik yang akan difokuskan dalam evaluasi?

Bidang spesifik yang akan difokuskan dalam evaluasi termasuk hukum, keuangan, asuransi, kesehatan, dan akuntansi.

Bagaimana OpenAI berencana untuk membagikan benchmark yang dibuat?

OpenAI berencana untuk membagikan benchmark yang dibuat secara publik bersama dengan evaluasi spesifik industri.