Courtesy of NatureMagazine
o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti
Menentukan dan membandingkan kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah untuk meningkatkan kepercayaan dan kegunaan AI dalam bidang penelitian.
10 Jul 2025, 07.00 WIB
38 dibaca
Share
Ikhtisar 15 Detik
- o3 dinyatakan sebagai alat terbaik untuk menjawab pertanyaan ilmiah di berbagai bidang.
- SciArena menggunakan umpan balik dari peneliti untuk menilai dan meranking model AI.
- Penggunaan AI dalam penelitian ilmiah dapat membantu peneliti tetap terupdate dengan literatur terbaru.
Seattle, Amerika Serikat - SciArena adalah platform baru yang menguji kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah menggunakan suara dari para peneliti. Platform ini dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) di Seattle dan melibatkan 102 peneliti dalam proses penilaian.
Dalam uji coba ini, 23 model bahasa besar dinilai mulai dari ilmu alam, kesehatan, teknik, hingga humaniora. Model AI bernama o3 yang dikembangkan oleh perusahaan yang sama dengan ChatGPT, OpenAI, menjadi yang terbaik menurut hasil voting.
Model DeepSeek-R1 asal China mendapatkan peringkat kedua dalam pertanyaan ilmu alam dan keempat dalam teknik, sedangkan Google’s Gemini-2.5-Pro menempati posisi ketiga di bidang ilmu alam dan kelima di bidang teknik dan kesehatan.
Salah satu alasan mengapa o3 disukai adalah karena kemampuannya memberikan detail lengkap pada kutipan literatur dan jawaban yang sangat teknis. Namun, sulit mengetahui alasan pasti mengapa performa tiap model berbeda karena mereka bersifat tertutup dan menggunakan data pelatihan serta optimasi yang berbeda.
SciArena memberikan akses gratis untuk bertanya tentang riset dan membandingkan jawaban dari dua model AI secara bersamaan. Dengan alat ini, para peneliti bisa lebih yakin dalam menggunakan AI untuk mengikuti perkembangan terbaru dalam bidang ilmu mereka.
Sumber: https://nature.com/articles/d41586-025-02177-7
Pertanyaan Terkait
Q
Apa yang menjadi peringkat tertinggi dalam penilaian alat AI untuk pertanyaan ilmiah?A
Model o3 menduduki peringkat tertinggi dalam penilaian alat AI untuk menjawab pertanyaan ilmiah.Q
Siapa pengembang dari model o3?A
Model o3 dikembangkan oleh OpenAI.Q
Apa tujuan dari platform SciArena?A
Tujuan dari platform SciArena adalah untuk mengevaluasi kinerja model bahasa besar dalam menjawab pertanyaan ilmiah menggunakan umpan balik dari peneliti.Q
Model AI mana yang berada di posisi kedua setelah o3?A
Model AI yang berada di posisi kedua setelah o3 adalah DeepSeek.Q
Mengapa o3 mungkin lebih disukai oleh pengguna dalam menjawab pertanyaan ilmiah?A
o3 mungkin lebih disukai oleh pengguna karena cenderung memberikan detail lebih tentang literatur yang dikutip dan menghasilkan jawaban yang lebih teknis.