Courtesy of TechCrunch
Sebuah penelitian terbaru menunjukkan bahwa model bahasa besar (LLMs) seperti GPT-4, Llama, dan Gemini masih kesulitan dalam menjawab pertanyaan sejarah tingkat tinggi. Penelitian ini menggunakan benchmark bernama Hist-LLM untuk menguji ketepatan jawaban dari model-model tersebut berdasarkan data dari Seshat Global History Databank. Hasilnya mengecewakan, di mana GPT-4 Turbo, yang berkinerja terbaik, hanya mencapai akurasi sekitar 46%, yang hampir setara dengan tebakan acak. Peneliti menyatakan bahwa meskipun LLMs dapat memberikan fakta dasar, mereka belum memiliki pemahaman yang mendalam untuk pertanyaan sejarah yang lebih kompleks.
Salah satu alasan mengapa LLMs kesulitan menjawab pertanyaan sejarah adalah karena mereka cenderung mengandalkan informasi yang lebih umum dan terkenal, sehingga sulit untuk mengingat fakta yang lebih jarang. Misalnya, ketika ditanya tentang keberadaan tentara profesional di Mesir kuno, GPT-4 memberikan jawaban yang salah karena lebih banyak informasi tersedia tentang tentara di kekaisaran lain. Peneliti berharap bahwa dengan memperbaiki data dan pertanyaan yang digunakan, LLMs dapat menjadi alat yang berguna bagi para sejarawan di masa depan.
Pertanyaan Terkait
Q
Apa tujuan dari benchmark Hist-LLM?A
Tujuan dari benchmark Hist-LLM adalah untuk menguji akurasi model bahasa besar dalam menjawab pertanyaan sejarah berdasarkan Seshat Global History Databank.Q
Model bahasa besar mana yang memiliki akurasi terbaik dalam ujian sejarah?A
Model bahasa besar yang memiliki akurasi terbaik dalam ujian sejarah adalah GPT-4 Turbo, tetapi hanya mencapai sekitar 46% akurasi.Q
Apa yang ditemukan peneliti tentang bias dalam model bahasa?A
Peneliti menemukan bahwa model OpenAI dan Llama berkinerja lebih buruk untuk wilayah tertentu seperti sub-Sahara Afrika, yang menunjukkan adanya bias dalam data pelatihan mereka.Q
Mengapa model bahasa besar kesulitan menjawab pertanyaan sejarah yang teknis?A
Model bahasa besar kesulitan menjawab pertanyaan sejarah yang teknis karena mereka cenderung mengekstrapolasi dari data sejarah yang lebih terkenal dan sulit mengambil pengetahuan sejarah yang lebih jarang.Q
Apa harapan peneliti untuk penggunaan model bahasa dalam penelitian sejarah di masa depan?A
Peneliti berharap model bahasa dapat membantu sejarawan di masa depan dengan memperbaiki benchmark mereka dan menambahkan lebih banyak data dari wilayah yang kurang terwakili.