o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti
Courtesy of NatureMagazine

o3 Jadi Model AI Terbaik Menjawab Pertanyaan Ilmiah Berdasarkan Penilaian Peneliti

Menentukan dan membandingkan kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah untuk meningkatkan kepercayaan dan kegunaan AI dalam bidang penelitian.

10 Jul 2025, 07.00 WIB
127 dibaca
Share
Ikhtisar 15 Detik
  • o3 dinyatakan sebagai alat terbaik untuk menjawab pertanyaan ilmiah di berbagai bidang.
  • SciArena menggunakan umpan balik dari peneliti untuk menilai dan meranking model AI.
  • Penggunaan AI dalam penelitian ilmiah dapat membantu peneliti tetap terupdate dengan literatur terbaru.
Seattle, Amerika Serikat - SciArena adalah platform baru yang menguji kemampuan berbagai model AI dalam menjawab pertanyaan ilmiah menggunakan suara dari para peneliti. Platform ini dikembangkan oleh Allen Institute for Artificial Intelligence (Ai2) di Seattle dan melibatkan 102 peneliti dalam proses penilaian.
Dalam uji coba ini, 23 model bahasa besar dinilai mulai dari ilmu alam, kesehatan, teknik, hingga humaniora. Model AI bernama o3 yang dikembangkan oleh perusahaan yang sama dengan ChatGPT, OpenAI, menjadi yang terbaik menurut hasil voting.
Model DeepSeek-R1 asal China mendapatkan peringkat kedua dalam pertanyaan ilmu alam dan keempat dalam teknik, sedangkan Google’s Gemini-2.5-Pro menempati posisi ketiga di bidang ilmu alam dan kelima di bidang teknik dan kesehatan.
Salah satu alasan mengapa o3 disukai adalah karena kemampuannya memberikan detail lengkap pada kutipan literatur dan jawaban yang sangat teknis. Namun, sulit mengetahui alasan pasti mengapa performa tiap model berbeda karena mereka bersifat tertutup dan menggunakan data pelatihan serta optimasi yang berbeda.
SciArena memberikan akses gratis untuk bertanya tentang riset dan membandingkan jawaban dari dua model AI secara bersamaan. Dengan alat ini, para peneliti bisa lebih yakin dalam menggunakan AI untuk mengikuti perkembangan terbaru dalam bidang ilmu mereka.
Referensi:
[1] https://nature.com/articles/d41586-025-02177-7

Analisis Kami

"Keunggulan o3 menunjukkan bahwa kualitas data pelatihan dan optimasi kritis dalam membentuk kemampuan AI menjawab soal ilmiah yang kompleks. Namun, tanpa transparansi data dan algoritma, sulit menilai sejauh mana model lain akan mengalami kemajuan serupa dalam waktu dekat."

Analisis Ahli

Arman Cohan
"Performa berbeda antar model AI sangat dipengaruhi oleh data pelatihan dan tujuan optimasi yang diterapkan, menjelaskan mengapa hasilnya bervariasi."
Jonathan Kummerfeld
"Kemampuan AI untuk menjawab pertanyaan ilmiah dengan percaya diri akan membantu peneliti menemukan literatur penting yang mungkin terlewatkan tanpa alat ini."
Rahul Shome
"SciArena mendorong evaluasi cermat AI dalam tugas literatur ilmiah, yang merupakan langkah positif untuk meningkatkan kualitas penggunaan LLM di bidang sains."

Prediksi Kami

Platform seperti SciArena akan mendorong pengembangan model AI yang semakin akurat dan transparan dalam memberikan jawaban ilmiah, sehingga mempercepat penelitian dan kolaborasi global di bidang sains.

Pertanyaan Terkait

Q
Apa yang menjadi peringkat tertinggi dalam penilaian alat AI untuk pertanyaan ilmiah?
A
Model o3 menduduki peringkat tertinggi dalam penilaian alat AI untuk menjawab pertanyaan ilmiah.
Q
Siapa pengembang dari model o3?
A
Model o3 dikembangkan oleh OpenAI.
Q
Apa tujuan dari platform SciArena?
A
Tujuan dari platform SciArena adalah untuk mengevaluasi kinerja model bahasa besar dalam menjawab pertanyaan ilmiah menggunakan umpan balik dari peneliti.
Q
Model AI mana yang berada di posisi kedua setelah o3?
A
Model AI yang berada di posisi kedua setelah o3 adalah DeepSeek.
Q
Mengapa o3 mungkin lebih disukai oleh pengguna dalam menjawab pertanyaan ilmiah?
A
o3 mungkin lebih disukai oleh pengguna karena cenderung memberikan detail lebih tentang literatur yang dikutip dan menghasilkan jawaban yang lebih teknis.

Artikel Serupa

DeepSeek Diduga Gunakan Data Model AI Google dan OpenAI Tanpa IzinTechCrunch
Teknologi
3 bulan lalu
241 dibaca

DeepSeek Diduga Gunakan Data Model AI Google dan OpenAI Tanpa Izin

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?TechCrunch
Teknologi
4 bulan lalu
237 dibaca

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?

Panduan Memilih Model AI Terbaik untuk Penelitian dan Pengembangan IlmiahNatureMagazine
Teknologi
7 bulan lalu
148 dibaca

Panduan Memilih Model AI Terbaik untuk Penelitian dan Pengembangan Ilmiah

OpenAI dan Google Perkenalkan Alat AI untuk Membuat Review Ilmiah OtomatisNatureMagazine
Teknologi
7 bulan lalu
271 dibaca

OpenAI dan Google Perkenalkan Alat AI untuk Membuat Review Ilmiah Otomatis

OpenAI Luncurkan O3-Mini, Model AI Cepat dan Terjangkau untuk STEMTechCrunch
Teknologi
7 bulan lalu
307 dibaca

OpenAI Luncurkan O3-Mini, Model AI Cepat dan Terjangkau untuk STEM

DeepSeek-R1: Model AI Murah dan Terbuka yang Mengubah Cara Ilmuwan BekerjaNatureMagazine
Teknologi
7 bulan lalu
43 dibaca

DeepSeek-R1: Model AI Murah dan Terbuka yang Mengubah Cara Ilmuwan Bekerja