Courtesy of NatureMagazine

o3 Jadi AI Terbaik Jawab Pertanyaan Ilmiah Versus Gemini dan DeepSeek

Menilai dan membandingkan kemampuan berbagai model AI dalam memberikan jawaban berkualitas terhadap pertanyaan ilmiah di berbagai bidang melalui platform benchmarking SciArena.

10 Jul 2025, 07.00 WIB

209 dibaca

Ikhtisar 15 Detik

o3 adalah model AI teratas dalam menjawab pertanyaan sains.
SciArena menyediakan platform untuk mengevaluasi model bahasa dengan umpan balik dari peneliti.
Peringkat model AI dapat berbeda karena variasi dalam data pelatihan dan fokus optimisasi.

Seattle, United States - SciArena, platform baru untuk menilai kualitas jawaban AI dalam ilmu pengetahuan, telah meluncurkan peringkat model bahasa besar dalam bidang sains. Penilaian ini melibatkan 102 peneliti dan lebih dari 13.000 suara yang membandingkan jawaban AI pada pertanyaan ilmiah di berbagai bidang.

Model AI bernama o3 yang dibuat oleh OpenAI berhasil menjadi yang terbaik dalam menjawab pertanyaan di bidang ilmu alam, kesehatan, teknik, serta humaniora. Model ini dinilai unggul karena memberikan rincian literatur yang lengkap dan jawaban yang teknis dan bernuansa.

DeepSeek dari China dan Google Gemini berada di peringkat berikutnya untuk beberapa bidang, namun o3 tetap unggul secara keseluruhan. Perbedaan kualitas bisa disebabkan oleh jenis data pelatihan dan tujuan utama masing-masing model yang tidak diumumkan secara publik.

SciArena menggunakan metode crowdsourced di mana pengguna diajak mengajukan pertanyaan dan membandingkan jawaban dua model AI secara acak. Hanya suara pengguna terverifikasi yang dihitung dalam peringkat agar hasilnya lebih valid dan dapat dipercaya.

Para ahli menilai platform ini penting untuk memudahkan peneliti mengikuti perkembangan literatur ilmiah terbaru. Selain itu, model AI yang berkualitas tinggi dapat membantu menemukan karya-karya penting yang mungkin terlewat tanpa bantuan AI.

Referensi:
[1] https://nature.com/articles/d41586-025-02177-7

Analisis Ahli

Arman Cohan

"Preferensi pengguna terhadap o3 mungkin karena model ini memberikan detail lebih banyak pada literatur yang dikutip dan menjawab secara teknis lebih bernuansa."

Jonathan Kummerfeld

"Kemampuan untuk mempertanyakan topik ilmiah lewat LLM dan mendapatkan jawaban yang dapat dipercaya akan sangat membantu para peneliti mengikuti literatur terbaru di bidangnya."

Rahul Shome

"SciArena adalah upaya positif yang memotivasi evaluasi yang cermat terhadap tugas-tugas berbasis literatur yang dibantu oleh LLM."

Analisis Kami

"Ranking teratas yang diraih oleh o3 menunjukkan bahwa detail dan kedalaman teknis pada jawaban model sangat dihargai oleh peneliti. Meski demikian, transparansi dalam pelatihan dan optimasi AI tetap menjadi tantangan utama untuk memahami perbedaan performa antar model."

Prediksi Kami

Ke depan, penilaian seperti ini akan mendorong pengembangan model AI yang lebih akurat dan berguna dalam bidang riset ilmiah, serta meningkatkan kepercayaan peneliti terhadap penggunaan AI dalam studi akademik.