Courtesy of NatureMagazine

o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti

Menentukan dan membandingkan kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah untuk meningkatkan kepercayaan dan kegunaan AI dalam bidang penelitian.

10 Jul 2025, 07.00 WIB

47 dibaca

Ikhtisar 15 Detik

o3 dinyatakan sebagai alat terbaik untuk menjawab pertanyaan ilmiah di berbagai bidang.
SciArena menggunakan umpan balik dari peneliti untuk menilai dan meranking model AI.
Penggunaan AI dalam penelitian ilmiah dapat membantu peneliti tetap terupdate dengan literatur terbaru.

Seattle, Amerika Serikat - SciArena adalah platform baru yang menguji kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah menggunakan suara dari para peneliti. Platform ini dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) di Seattle dan melibatkan 102 peneliti dalam proses penilaian.

Dalam uji coba ini, 23 model bahasa besar dinilai mulai dari ilmu alam, kesehatan, teknik, hingga humaniora. Model AI bernama o3 yang dikembangkan oleh perusahaan yang sama dengan ChatGPT, OpenAI, menjadi yang terbaik menurut hasil voting.

Model DeepSeek-R1 asal China mendapatkan peringkat kedua dalam pertanyaan ilmu alam dan keempat dalam teknik, sedangkan Google’s Gemini-2.5-Pro menempati posisi ketiga di bidang ilmu alam dan kelima di bidang teknik dan kesehatan.

Salah satu alasan mengapa o3 disukai adalah karena kemampuannya memberikan detail lengkap pada kutipan literatur dan jawaban yang sangat teknis. Namun, sulit mengetahui alasan pasti mengapa performa tiap model berbeda karena mereka bersifat tertutup dan menggunakan data pelatihan serta optimasi yang berbeda.

SciArena memberikan akses gratis untuk bertanya tentang riset dan membandingkan jawaban dari dua model AI secara bersamaan. Dengan alat ini, para peneliti bisa lebih yakin dalam menggunakan AI untuk mengikuti perkembangan terbaru dalam bidang ilmu mereka.

Referensi:
[1] https://nature.com/articles/d41586-025-02177-7

Analisis Ahli

Arman Cohan

"Performa berbeda antar model AI sangat dipengaruhi oleh data pelatihan dan tujuan optimasi yang diterapkan, menjelaskan mengapa hasilnya bervariasi."

Jonathan Kummerfeld

"Kemampuan AI untuk menjawab pertanyaan ilmiah dengan percaya diri akan membantu peneliti menemukan literatur penting yang mungkin terlewatkan tanpa alat ini."

Rahul Shome

"SciArena mendorong evaluasi cermat AI dalam tugas literatur ilmiah, yang merupakan langkah positif untuk meningkatkan kualitas penggunaan LLM di bidang sains."

Analisis Kami

"Keunggulan o3 menunjukkan bahwa kualitas data pelatihan dan optimasi kritis dalam membentuk kemampuan AI menjawab soal ilmiah yang kompleks. Namun, tanpa transparansi data dan algoritma, sulit menilai sejauh mana model lain akan mengalami kemajuan serupa dalam waktu dekat."

Prediksi Kami

Platform seperti SciArena akan mendorong pengembangan model AI yang semakin akurat dan transparan dalam memberikan jawaban ilmiah, sehingga mempercepat penelitian dan kolaborasi global di bidang sains.

Pertanyaan Terkait

Apa yang menjadi peringkat tertinggi dalam penilaian alat AI untuk pertanyaan ilmiah?

Model o3 menduduki peringkat tertinggi dalam penilaian alat AI untuk menjawab pertanyaan ilmiah.

Siapa pengembang dari model o3?

Model o3 dikembangkan oleh OpenAI.

Apa tujuan dari platform SciArena?

Tujuan dari platform SciArena adalah untuk mengevaluasi kinerja model bahasa besar dalam menjawab pertanyaan ilmiah menggunakan umpan balik dari peneliti.

Model AI mana yang berada di posisi kedua setelah o3?

Model AI yang berada di posisi kedua setelah o3 adalah DeepSeek.

Mengapa o3 mungkin lebih disukai oleh pengguna dalam menjawab pertanyaan ilmiah?

o3 mungkin lebih disukai oleh pengguna karena cenderung memberikan detail lebih tentang literatur yang dikutip dan menghasilkan jawaban yang lebih teknis.