Courtesy of TechCrunch

Benchmark Sulit Humanity’s Last Exam untuk Uji Kemampuan AI Masa Depan

24 Jan 2025, 06.29 WIB

185 dibaca

Center for AI Safety (CAIS) dan Scale AI, sebuah perusahaan yang menyediakan layanan pengembangan AI, telah meluncurkan sebuah ujian baru yang menantang untuk sistem AI canggih, yang disebut Ujian Terakhir Kemanusiaan. Ujian ini terdiri dari ribuan pertanyaan yang dikumpulkan dari berbagai sumber dan mencakup berbagai topik seperti matematika, ilmu humaniora, dan ilmu alam. Untuk membuatnya lebih sulit, pertanyaan-pertanyaan tersebut hadir dalam berbagai format, termasuk yang menggunakan diagram dan gambar.

Dalam studi awal, tidak ada satu pun sistem AI terkemuka yang tersedia untuk umum yang berhasil mendapatkan skor lebih dari 10% pada Ujian Terakhir Kemanusiaan. CAIS dan Scale AI berencana untuk membuka ujian ini untuk komunitas penelitian agar para peneliti dapat mengeksplorasi lebih dalam variasi yang ada dan mengevaluasi model-model AI baru.

Referensi:
[1] https://techcrunch.com/2025/01/23/even-some-of-the-best-ai-cant-beat-this-new-benchmark/

Analisis Ahli

Yoshua Bengio

"Benchmark semacam ini sangat penting untuk menguji dan mendorong batas kemampuan AI agar tidak hanya sekadar menghafal data, tapi benar-benar memahami kompleksitas dunia nyata."

Fei-Fei Li

"Memasukkan soal dengan diagram dan gambar merupakan langkah maju dalam mengevaluasi AI secara menyeluruh, karena kemampuan interpretasi visual adalah aspek kunci dalam kecerdasan buatan."

Analisis Kami

"Benchmark Humanity’s Last Exam menunjukkan bahwa meskipun kemajuan AI sangat pesat, masih ada gap besar dalam kemampuan AI memahami konteks yang kompleks dan visual. Ini menjadi panggilan penting bagi pengembang AI untuk fokus pada peningkatan multimodalitas dan pemahaman lintas disiplin."

Prediksi Kami

Benchmark ini akan mendorong kemajuan signifikan dalam pengembangan AI dengan memacu para peneliti untuk membuat model yang mampu mengatasi soal-soal kompleks dan multidisiplin.

Pertanyaan Terkait

Apa itu Center for AI Safety?

Center for AI Safety adalah organisasi nirlaba yang fokus pada keselamatan dan etika dalam pengembangan kecerdasan buatan.

Apa tujuan dari Humanity’s Last Exam?

Tujuan dari Humanity’s Last Exam adalah untuk menguji kemampuan sistem AI dengan ribuan pertanyaan yang bersumber dari kerumunan.

Siapa yang berkolaborasi dalam pengembangan Humanity’s Last Exam?

Center for AI Safety dan Scale AI berkolaborasi dalam pengembangan Humanity’s Last Exam.

Mengapa pertanyaan dalam Humanity’s Last Exam dianggap menantang?

Pertanyaan dalam Humanity’s Last Exam dianggap menantang karena mencakup berbagai format, termasuk diagram dan gambar.

Apa hasil awal dari evaluasi sistem AI terhadap Humanity’s Last Exam?

Hasil awal menunjukkan bahwa tidak ada sistem AI flagship yang tersedia secara publik yang berhasil mencetak lebih dari 10% pada Humanity’s Last Exam.