o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti
Courtesy of NatureMagazine

o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti

Menentukan dan membandingkan kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah untuk meningkatkan kepercayaan dan kegunaan AI dalam bidang penelitian.

10 Jul 2025, 07.00 WIB
38 dibaca
Share
Ikhtisar 15 Detik
  • o3 dinyatakan sebagai alat terbaik untuk menjawab pertanyaan ilmiah di berbagai bidang.
  • SciArena menggunakan umpan balik dari peneliti untuk menilai dan meranking model AI.
  • Penggunaan AI dalam penelitian ilmiah dapat membantu peneliti tetap terupdate dengan literatur terbaru.
Seattle, Amerika Serikat - SciArena adalah platform baru yang menguji kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah menggunakan suara dari para peneliti. Platform ini dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) di Seattle dan melibatkan 102 peneliti dalam proses penilaian.
Dalam uji coba ini, 23 model bahasa besar dinilai mulai dari ilmu alam, kesehatan, teknik, hingga humaniora. Model AI bernama o3 yang dikembangkan oleh perusahaan yang sama dengan ChatGPT, OpenAI, menjadi yang terbaik menurut hasil voting.
Model DeepSeek-R1 asal China mendapatkan peringkat kedua dalam pertanyaan ilmu alam dan keempat dalam teknik, sedangkan Google’s Gemini-2.5-Pro menempati posisi ketiga di bidang ilmu alam dan kelima di bidang teknik dan kesehatan.
Salah satu alasan mengapa o3 disukai adalah karena kemampuannya memberikan detail lengkap pada kutipan literatur dan jawaban yang sangat teknis. Namun, sulit mengetahui alasan pasti mengapa performa tiap model berbeda karena mereka bersifat tertutup dan menggunakan data pelatihan serta optimasi yang berbeda.
SciArena memberikan akses gratis untuk bertanya tentang riset dan membandingkan jawaban dari dua model AI secara bersamaan. Dengan alat ini, para peneliti bisa lebih yakin dalam menggunakan AI untuk mengikuti perkembangan terbaru dalam bidang ilmu mereka.
Sumber: https://nature.com/articles/d41586-025-02177-7

Pertanyaan Terkait

Q
Apa yang menjadi peringkat tertinggi dalam penilaian alat AI untuk pertanyaan ilmiah?
A
Model o3 menduduki peringkat tertinggi dalam penilaian alat AI untuk menjawab pertanyaan ilmiah.
Q
Siapa pengembang dari model o3?
A
Model o3 dikembangkan oleh OpenAI.
Q
Apa tujuan dari platform SciArena?
A
Tujuan dari platform SciArena adalah untuk mengevaluasi kinerja model bahasa besar dalam menjawab pertanyaan ilmiah menggunakan umpan balik dari peneliti.
Q
Model AI mana yang berada di posisi kedua setelah o3?
A
Model AI yang berada di posisi kedua setelah o3 adalah DeepSeek.
Q
Mengapa o3 mungkin lebih disukai oleh pengguna dalam menjawab pertanyaan ilmiah?
A
o3 mungkin lebih disukai oleh pengguna karena cenderung memberikan detail lebih tentang literatur yang dikutip dan menghasilkan jawaban yang lebih teknis.

Artikel Serupa

Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan PertanyaanTechCrunch
Teknologi
3 bulan lalu
90 dibaca

Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan Pertanyaan

Apa saja alat AI terbaik untuk penelitian? Panduan Nature.NatureMagazine
Teknologi
5 bulan lalu
104 dibaca

Apa saja alat AI terbaik untuk penelitian? Panduan Nature.

Alat 'penelitian mendalam' OpenAI: apakah itu berguna bagi para ilmuwan?NatureMagazine
Teknologi
5 bulan lalu
176 dibaca

Alat 'penelitian mendalam' OpenAI: apakah itu berguna bagi para ilmuwan?

OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.TechCrunch
Teknologi
6 bulan lalu
167 dibaca

OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.

DeepSeek Memiliki Lebih Banyak yang Ditawarkan Selain Efisiensi: AI yang Dapat DijelaskanForbes
Teknologi
6 bulan lalu
261 dibaca

DeepSeek Memiliki Lebih Banyak yang Ditawarkan Selain Efisiensi: AI yang Dapat Dijelaskan

Para ilmuwan berbondong-bondong ke DeepSeek: bagaimana mereka menggunakan model AI yang sangat populer ini.NatureMagazine
Teknologi
6 bulan lalu
273 dibaca

Para ilmuwan berbondong-bondong ke DeepSeek: bagaimana mereka menggunakan model AI yang sangat populer ini.