Courtesy of NatureMagazine
o3 Jadi AI Terbaik Jawab Pertanyaan Ilmiah Versus Gemini dan DeepSeek
Menilai dan membandingkan kemampuan berbagai model AI dalam memberikan jawaban berkualitas terhadap pertanyaan ilmiah di berbagai bidang melalui platform benchmarking SciArena.
10 Jul 2025, 07.00 WIB
11 dibaca
Share
Ikhtisar 15 Detik
- o3 adalah model AI teratas dalam menjawab pertanyaan sains.
- SciArena menyediakan platform untuk mengevaluasi model bahasa dengan umpan balik dari peneliti.
- Peringkat model AI dapat berbeda karena variasi dalam data pelatihan dan fokus optimisasi.
Seattle, United States - SciArena, platform baru untuk menilai kualitas jawaban AI dalam ilmu pengetahuan, telah meluncurkan peringkat model bahasa besar dalam bidang sains. Penilaian ini melibatkan 102 peneliti dan lebih dari 13.000 suara yang membandingkan jawaban AI pada pertanyaan ilmiah di berbagai bidang.
Model AI bernama o3 yang dibuat oleh OpenAI berhasil menjadi yang terbaik dalam menjawab pertanyaan di bidang ilmu alam, kesehatan, teknik, serta humaniora. Model ini dinilai unggul karena memberikan rincian literatur yang lengkap dan jawaban yang teknis dan bernuansa.
DeepSeek dari China dan Google Gemini berada di peringkat berikutnya untuk beberapa bidang, namun o3 tetap unggul secara keseluruhan. Perbedaan kualitas bisa disebabkan oleh jenis data pelatihan dan tujuan utama masing-masing model yang tidak diumumkan secara publik.
SciArena menggunakan metode crowdsourced di mana pengguna diajak mengajukan pertanyaan dan membandingkan jawaban dua model AI secara acak. Hanya suara pengguna terverifikasi yang dihitung dalam peringkat agar hasilnya lebih valid dan dapat dipercaya.
Para ahli menilai platform ini penting untuk memudahkan peneliti mengikuti perkembangan literatur ilmiah terbaru. Selain itu, model AI yang berkualitas tinggi dapat membantu menemukan karya-karya penting yang mungkin terlewat tanpa bantuan AI.
Sumber: https://nature.com/articles/d41586-025-02177-7
Pertanyaan Terkait
Q
Apa yang menjadi peringkat tertinggi dalam penilaian model AI untuk menjawab pertanyaan sains?A
Model o3 adalah yang tertinggi dalam penilaian untuk menjawab pertanyaan sains.Q
Siapa yang mengembangkan model o3?A
Model o3 dikembangkan oleh OpenAI.Q
Apa tujuan dari platform SciArena?A
Tujuan dari platform SciArena adalah untuk mengevaluasi performa model AI dalam menjawab pertanyaan ilmiah.Q
Bagaimana cara penilaian dilakukan dalam SciArena?A
Penilaian dilakukan dengan mengumpulkan suara dari peneliti terhadap jawaban yang diberikan oleh dua model secara acak.Q
Mengapa o3 mungkin lebih disukai oleh pengguna?A
o3 mungkin lebih disukai pengguna karena memberikan jawaban yang detail dan teknis.