Courtesy of TechCrunch

OpenAI Luncurkan Program Baru untuk Menciptakan Tolok Ukur AI yang Lebih Nyata dan Spesifik

Menciptakan tolok ukur AI yang lebih relevan dan mencerminkan kasus penggunaan dunia nyata di berbagai industri.

10 Apr 2025, 00.32 WIB

65 dibaca

Ikhtisar 15 Detik

OpenAI meluncurkan program baru untuk memperbaiki evaluasi model AI.
Benchmark yang ada saat ini sering kali tidak mencerminkan kinerja dunia nyata.
Program ini akan melibatkan startup untuk menciptakan evaluasi yang lebih relevan dan spesifik industri.

Amerika Serikat - OpenAI dan banyak laboratorium AI lainnya berpendapat bahwa tolok ukur AI saat ini tidak efektif dan ingin memperbaikinya melalui program baru yang disebut OpenAI Pioneers Program. Program ini akan fokus pada pembuatan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan membantu menilai kinerja model dalam lingkungan yang praktis dan berisiko tinggi.

Banyak tolok ukur AI yang digunakan saat ini mengukur kinerja pada tugas-tugas yang tidak relevan atau dapat dimanipulasi. Melalui Program Pioneers, OpenAI berharap untuk menciptakan tolok ukur untuk domain spesifik seperti hukum, keuangan, asuransi, kesehatan, dan akuntansi. Dalam beberapa bulan mendatang, OpenAI akan bekerja dengan beberapa perusahaan untuk merancang tolok ukur yang disesuaikan dan membagikannya secara publik.

Perusahaan dalam program ini akan bekerja dengan tim OpenAI untuk menciptakan perbaikan model melalui teknik reinforcement fine tuning. Namun, masih menjadi pertanyaan apakah komunitas AI akan menerima tolok ukur yang diciptakan dengan dana dari OpenAI. Meskipun demikian, OpenAI berharap program ini dapat membantu meningkatkan dampak AI di dunia nyata.

Referensi:
[1] https://techcrunch.com/2025/04/09/openai-launches-program-to-design-new-domain-specific-ai-benchmarks/

Analisis Ahli

Andrej Karpathy

"Benchmark AI yang spesifik domain sangat penting untuk mempercepat pengembangan aplikasi praktis, tapi pembuatannya harus terbuka dan partisipatif agar tidak memunculkan dominasi satu entitas."

Yoshua Bengio

"Reinforcement fine tuning bisa membuat model lebih akurat untuk tugas tertentu, namun kita harus waspada agar evaluasi dan pengembangan tidak menjadi sempit dan mengecilkan kualitas generalisasi model."

Analisis Kami

"Pendekatan OpenAI untuk membuat tolok ukur yang lebih praktis sangat diperlukan untuk mengembangkan AI yang berguna di dunia nyata, tapi risiko bias dan ketergantungan pada satu pihak perlu diawasi ketat. Transparansi dan keterlibatan komunitas yang lebih luas harus dijadikan prioritas agar benchmark ini benar-benar dapat dipercaya dan diadopsi secara luas."

Prediksi Kami

Tolok ukur AI yang lebih domain-spesifik akan mulai digunakan secara luas, namun kemungkinan akan memicu perdebatan tentang independensi dan objektivitas karena keterlibatan langsung OpenAI dalam pembuatannya.

Pertanyaan Terkait

Apa tujuan dari OpenAI Pioneers Program?

Tujuan dari OpenAI Pioneers Program adalah untuk menciptakan evaluasi untuk model AI yang mencerminkan penggunaan dunia nyata dan meningkatkan dampaknya.

Mengapa benchmark AI saat ini dianggap rusak?

Benchmark AI saat ini dianggap rusak karena banyak yang mengukur kinerja pada tugas yang tidak relevan atau dapat dimanipulasi.

Apa yang akan dilakukan oleh perusahaan yang terlibat dalam program ini?

Perusahaan yang terlibat dalam program ini akan bekerja sama dengan tim OpenAI untuk menciptakan perbaikan model melalui fine tuning yang diperkuat.

Apa saja bidang spesifik yang akan difokuskan dalam evaluasi?

Bidang spesifik yang akan difokuskan dalam evaluasi termasuk hukum, keuangan, asuransi, kesehatan, dan akuntansi.

Bagaimana OpenAI berencana untuk membagikan benchmark yang dibuat?

OpenAI berencana untuk membagikan benchmark yang dibuat secara publik bersama dengan evaluasi spesifik industri.