
Courtesy of TechCrunch
AI Masih Gagal Menangani Pekerjaan Profesional Kompleks, Tapi Perbaikan Cepat
Mengukur kemampuan model AI dalam menyelesaikan tugas pekerjaan profesional pengetahuan di bidang hukum, perbankan investasi, dan konsultasi dengan benchmark baru bernama Apex-Agents, guna mengetahui tingkat kesiapan AI menggantikan pekerjaan ini.
23 Jan 2026, 04.42 WIB
292 dibaca
Share
Ikhtisar 15 Detik
- AI masih belum mampu menggantikan pekerjaan pengetahuan secara efektif.
- Benchmark Apex-Agents menunjukkan tantangan nyata bagi model AI saat ini.
- Ada potensi perbaikan yang cepat dalam kinerja model AI di masa depan.
tidak disebutkan , tidak diketahui - Satya Nadella, CEO Microsoft, pernah memprediksi bahwa AI akan menggantikan pekerjaan pengetahuan seperti yang dilakukan oleh pengacara, bankir investasi, dan akuntan dalam waktu dua tahun. Namun, hingga kini perubahan besar tersebut belum terlihat. Model AI memang mampu melakukan riset mendalam dan perencanaan, tapi tetap kesulitan dalam menangani pekerjaan profesional kompleks yang membutuhkan integrasi banyak sumber informasi.
Sebuah penelitian baru dari Mercor menggunakan benchmark bernama Apex-Agents dengan menguji model AI berdasarkan tugas nyata dari profesional di bidang hukum, perbankan investasi, dan konsultasi. Penelitian ini menunjukkan bahwa sebagian besar model AI hanya bisa memberikan jawaban benar sekitar satu dari empat kesempatan. Mayoritas waktu, jawaban yang diberikan salah atau tidak ada sama sekali.
Salah satu titik kesulitan utama AI adalah mengelola informasi yang tersebar di banyak domain dan aplikasi seperti Slack, Google Drive, dan lainnya, persis seperti yang dilakukan manusia dalam pekerjaan profesional. Hal ini menjadi penghambat utama mengingat pekerjaan profesional biasanya tidak hanya berfokus pada satu sumber informasi tunggal.
Dari beberapa model yang diuji, Gemini 3 Flash dan GPT-5.2 mencatat performa terbaik dengan akurasi sekitar 23-24%. Model seperti Opus 4.5 dan GPT-5 masih berada di bawah dengan akurasi sekitar 18%. Meski performanya saat ini masih jauh dari sempurna, peningkatan dari tahun ke tahun cukup signifikan, menunjukkan adanya perkembangan yang cepat di bidang ini.
Peneliti seperti Brendan Foody optimis AI akan semakin matang dan mampu menangani tugas profesional kompleks dalam waktu dekat. Meski saat ini AI diibaratkan seperti magang yang berhasil menjawab seperempat dari tugas yang dihadapi, kemajuan pesat setiap tahun dapat membawa perubahan besar yang berpotensi menggantikan pekerjaan pengetahuan manusia secara luas.
Referensi:
[1] https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/
[1] https://techcrunch.com/2026/01/22/are-ai-agents-ready-for-the-workplace-a-new-benchmark-raises-doubts/
Analisis Ahli
Brendan Foody
"Model AI masih di tahap pemula (magang) dengan akurasi hanya sekitar 25%, tetapi kemajuan tahun ke tahun bisa membawa dampak besar dalam waktu singkat."
Analisis Kami
"Penelitian ini memperjelas bahwa AI saat ini belum siap menggantikan pekerjaan profesional karena kurangnya kemampuan dalam menyatukan informasi dari berbagai sumber, sesuatu yang menjadi kekuatan utama manusia dalam pekerjaan pengetahuan. Namun, dengan kecepatan kemajuan AI sekarang, hambatan tersebut kemungkinan akan segera teratasi sehingga dampak besar terhadap pasar tenaga kerja profesional sulit dihindari."
Prediksi Kami
Dalam beberapa tahun ke depan, model AI akan terus mengalami peningkatan signifikan dalam menangani tugas profesional kompleks, sehingga mampu menggantikan sebagian pekerjaan pengetahuan manusia secara bertahap.
Pertanyaan Terkait
Q
Apa yang diprediksi oleh Satya Nadella mengenai AI?A
Satya Nadella memprediksi bahwa AI akan menggantikan pekerjaan pengetahuan.Q
Apa itu benchmark Apex-Agents?A
Benchmark Apex-Agents adalah ukuran baru untuk mengukur kemampuan model AI dalam melakukan tugas pekerjaan pengetahuan.Q
Apa hasil utama dari penelitian Mercor?A
Hasil utama dari penelitian Mercor menunjukkan bahwa semua model AI yang diuji gagal dalam menjawab lebih dari 25% pertanyaan.Q
Model AI mana yang menunjukkan performa terbaik dalam benchmark?A
Gemini 3 Flash menunjukkan performa terbaik dengan akurasi 24%.Q
Mengapa pekerjaan pengetahuan masih belum banyak terpengaruh oleh AI?A
Pekerjaan pengetahuan masih belum banyak terpengaruh oleh AI karena model saat ini kesulitan dalam melacak informasi di berbagai domain.



