Courtesy of NatureMagazine
o3 Jadi AI Terbaik Jawab Pertanyaan Ilmiah Versus Gemini dan DeepSeek
Menilai dan membandingkan kemampuan berbagai model AI dalam memberikan jawaban berkualitas terhadap pertanyaan ilmiah di berbagai bidang melalui platform benchmarking SciArena.
10 Jul 2025, 07.00 WIB
96 dibaca
Share
Ikhtisar 15 Detik
- o3 adalah model AI teratas dalam menjawab pertanyaan sains.
- SciArena menyediakan platform untuk mengevaluasi model bahasa dengan umpan balik dari peneliti.
- Peringkat model AI dapat berbeda karena variasi dalam data pelatihan dan fokus optimisasi.
Seattle, United States - SciArena, platform baru untuk menilai kualitas jawaban AI dalam ilmu pengetahuan, telah meluncurkan peringkat model bahasa besar dalam bidang sains. Penilaian ini melibatkan 102 peneliti dan lebih dari 13.000 suara yang membandingkan jawaban AI pada pertanyaan ilmiah di berbagai bidang.
Model AI bernama o3 yang dibuat oleh OpenAI berhasil menjadi yang terbaik dalam menjawab pertanyaan di bidang ilmu alam, kesehatan, teknik, serta humaniora. Model ini dinilai unggul karena memberikan rincian literatur yang lengkap dan jawaban yang teknis dan bernuansa.
DeepSeek dari China dan Google Gemini berada di peringkat berikutnya untuk beberapa bidang, namun o3 tetap unggul secara keseluruhan. Perbedaan kualitas bisa disebabkan oleh jenis data pelatihan dan tujuan utama masing-masing model yang tidak diumumkan secara publik.
SciArena menggunakan metode crowdsourced di mana pengguna diajak mengajukan pertanyaan dan membandingkan jawaban dua model AI secara acak. Hanya suara pengguna terverifikasi yang dihitung dalam peringkat agar hasilnya lebih valid dan dapat dipercaya.
Para ahli menilai platform ini penting untuk memudahkan peneliti mengikuti perkembangan literatur ilmiah terbaru. Selain itu, model AI yang berkualitas tinggi dapat membantu menemukan karya-karya penting yang mungkin terlewat tanpa bantuan AI.
Referensi:
[1] https://nature.com/articles/d41586-025-02177-7
[1] https://nature.com/articles/d41586-025-02177-7
Analisis Kami
"Ranking teratas yang diraih oleh o3 menunjukkan bahwa detail dan kedalaman teknis pada jawaban model sangat dihargai oleh peneliti. Meski demikian, transparansi dalam pelatihan dan optimasi AI tetap menjadi tantangan utama untuk memahami perbedaan performa antar model."
Analisis Ahli
Arman Cohan
"Preferensi pengguna terhadap o3 mungkin karena model ini memberikan detail lebih banyak pada literatur yang dikutip dan menjawab secara teknis lebih bernuansa."
Jonathan Kummerfeld
"Kemampuan untuk mempertanyakan topik ilmiah lewat LLM dan mendapatkan jawaban yang dapat dipercaya akan sangat membantu para peneliti mengikuti literatur terbaru di bidangnya."
Rahul Shome
"SciArena adalah upaya positif yang memotivasi evaluasi yang cermat terhadap tugas-tugas berbasis literatur yang dibantu oleh LLM."
Prediksi Kami
Ke depan, penilaian seperti ini akan mendorong pengembangan model AI yang lebih akurat dan berguna dalam bidang riset ilmiah, serta meningkatkan kepercayaan peneliti terhadap penggunaan AI dalam studi akademik.
Pertanyaan Terkait
Q
Apa yang menjadi peringkat tertinggi dalam penilaian model AI untuk menjawab pertanyaan sains?A
Model o3 adalah yang tertinggi dalam penilaian untuk menjawab pertanyaan sains.Q
Siapa yang mengembangkan model o3?A
Model o3 dikembangkan oleh OpenAI.Q
Apa tujuan dari platform SciArena?A
Tujuan dari platform SciArena adalah untuk mengevaluasi performa model AI dalam menjawab pertanyaan ilmiah.Q
Bagaimana cara penilaian dilakukan dalam SciArena?A
Penilaian dilakukan dengan mengumpulkan suara dari peneliti terhadap jawaban yang diberikan oleh dua model secara acak.Q
Mengapa o3 mungkin lebih disukai oleh pengguna?A
o3 mungkin lebih disukai pengguna karena memberikan jawaban yang detail dan teknis.