Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.
Courtesy of TechCrunch

Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.

06 Feb 2025, 12.47 WIB
108 dibaca
Share
Setiap hari Minggu, Will Shortz, pembawa acara NPR, menguji ribuan pendengar dengan teka-teki dari acara Sunday Puzzle. Teka-teki ini dirancang agar bisa dipecahkan tanpa pengetahuan khusus, tetapi tetap menantang bahkan bagi peserta yang terampil. Peneliti dari beberapa universitas menggunakan teka-teki ini untuk menguji kemampuan pemecahan masalah AI. Mereka menemukan bahwa beberapa model AI, seperti OpenAI's o1, kadang-kadang "menyerah" dan memberikan jawaban yang salah. Penelitian ini bertujuan untuk menciptakan tolok ukur yang dapat diakses oleh banyak orang, sehingga hasilnya bisa dipahami dan dianalisis oleh lebih banyak peneliti.
Model AI yang diuji menunjukkan perilaku yang mirip dengan manusia, seperti merasa "frustrasi" saat tidak bisa menemukan jawaban yang tepat. Model o1 saat ini memiliki skor tertinggi di antara model lainnya, tetapi masih ada ruang untuk perbaikan. Peneliti berharap dengan menggunakan teka-teki yang lebih mudah diakses, mereka dapat membantu mengembangkan model AI yang lebih baik dan lebih efektif untuk digunakan oleh semua orang.
Sumber: https://techcrunch.com/2025/02/05/these-researchers-used-npr-sunday-puzzle-questions-to-benchmark-ai-reasoning-models/

Pertanyaan Terkait

Q
Apa itu Sunday Puzzle?
A
Sunday Puzzle adalah segmen teka-teki yang disiarkan oleh NPR yang menantang pendengar dengan berbagai teka-teki setiap minggu.
Q
Siapa Will Shortz?
A
Will Shortz adalah pembawa acara NPR dan pakar teka-teki silang di The New York Times yang mengelola segmen Sunday Puzzle.
Q
Apa tujuan dari penelitian yang dilakukan oleh tim peneliti?
A
Tujuan penelitian adalah untuk mengembangkan benchmark AI yang menggunakan teka-teki dari Sunday Puzzle untuk menguji kemampuan pemecahan masalah AI.
Q
Apa yang ditemukan oleh tim peneliti tentang model reasoning?
A
Tim peneliti menemukan bahwa model reasoning seperti o1 dan R1 terkadang 'menyerah' dan memberikan jawaban yang salah, menunjukkan batasan dalam kemampuan mereka.
Q
Mengapa benchmark yang lebih luas diperlukan dalam penelitian AI?
A
Benchmark yang lebih luas diperlukan agar lebih banyak peneliti dapat memahami dan menganalisis hasil, yang dapat mengarah pada solusi yang lebih baik di masa depan.

Artikel Serupa

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
4 bulan lalu
70 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
4 bulan lalu
65 dibaca

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.

OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
4 bulan lalu
141 dibaca

OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.

Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.TechCrunch
Teknologi
5 bulan lalu
105 dibaca

Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.

Mengapa IQ adalah tes yang buruk untuk AITechCrunch
Teknologi
5 bulan lalu
146 dibaca

Mengapa IQ adalah tes yang buruk untuk AI

Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.TechCrunch
Teknologi
5 bulan lalu
119 dibaca

Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.