AI V-JEPA: Model Baru yang Mengerti Dunia Seperti Bayi
Courtesy of QuantaMagazine

AI V-JEPA: Model Baru yang Mengerti Dunia Seperti Bayi

Memperkenalkan model AI V-JEPA yang mampu memahami konsep fisika intuitif seperti permanensi objek dan menggambarkan rasa 'keheranan' saat prediksi fisik tidak sesuai dengan kenyataan, untuk meningkatkan kemampuan AI dalam memahami dunia nyata lebih baik dengan data video.

03 Okt 2025, 07.00 WIB
262 dibaca
Share
Ikhtisar 15 Detik
  • V-JEPA menunjukkan kemampuan AI untuk memahami konsep objek permanen dan fisika intuitif.
  • Model ini menggunakan representasi laten untuk fokus pada informasi penting, menghindari detail yang tidak relevan.
  • V-JEPA dapat diaplikasikan dalam robotika untuk meningkatkan interaksi dengan lingkungan fisik.
Amsterdam, Belanda - Para peneliti di Meta telah mengembangkan model AI bernama V-JEPA yang mampu memahami dunia melalui video tanpa mengasumsikan aturan fisika secara eksplisit. Model ini menggunakan pendekatan baru yang fokus pada representasi laten, yaitu rangkuman informasi penting dari video, bukan memprediksi setiap detail piksel. Dengan cara ini, V-JEPA belajar mengenali objek dan pola fisik yang mendasarinya, mirip dengan cara bayi belajar tentang dunia.
Sistem tradisional yang bekerja di ruang piksel cenderung terlalu banyak terfokus pada detail kecil yang tidak penting, seperti gerakan daun di pohon atau bayangan, sehingga sulit untuk memahami apa yang benar-benar terjadi dalam video. V-JEPA mengatasi masalah ini dengan menggunakan dua encoder dan satu prediktor untuk mempelajari hubungan antara bagian video yang terlihat dan yang tersembunyi dalam bentuk representasi abstrak.
Model ini telah diuji dalam tes yang mengukur pemahaman fisika intuitif seperti permanensi objek — apakah benda tetap ada meski tersembunyi — serta hukum gravitasi dan warna tetap. V-JEPA mencapai akurasi 98% dalam tes tersebut, jauh lebih baik dari model sebelumnya yang hanya sedikit lebih bagus dari tebakan acak. Model ini bahkan dapat menunjukkan 'kejutan' saat melihat kejadian fisik tidak mungkin dalam video.
Meta juga memperkenalkan versi terbaru, V-JEPA 2, dengan 1,2 miliar parameter yang sudah dilatih dengan 22 juta video. Model ini diuji dalam pengendalian robot dan dapat belajar tugas manipulasi hanya dari beberapa jam data robotik, membuka peluang aplikasi robotika yang lebih maju. Namun, model ini masih memiliki keterbatasan dalam memori dan ketidakmampuan menghitung ketidakpastian prediksi.
Para ahli menganggap V-JEPA merupakan langkah maju penting dalam AI yang mencoba meniru bagaimana otak manusia belajar dari pengalaman tanpa harus diberi aturan keras. Tapi masih ada banyak tantangan terutama dalam hal memori dan pengelolaan ketidakpastian yang harus segera diatasi agar AI benar-benar dapat memahami dan berinteraksi dengan dunia nyata seperti manusia.
Referensi:
[1] https://www.quantamagazine.org/how-one-ai-model-creates-a-physical-intuition-of-its-environment-20251003/

Analisis Ahli

Micha Heilbron
"Mengagumi bahwa belajar fisika intuitif bisa dicapai tanpa pemrograman bawaan, menegaskan bahwa hal ini sangat mungkin dipelajari dari data mentah."
Karl Friston
"Menganggap model ini mendekati cara otak mempelajari dunia, namun kritis terhadap kurangnya perhitungan ketidakpastian yang esensial untuk prediksi realistis."

Analisis Kami

"V-JEPA mengubah paradigma memahami video dari pixel ke representasi laten yang lebih bermakna, menandai langkah besar dalam AI yang benar-benar 'mengerti' dunia. Namun, untuk mencapai kecerdasan yang setara manusia, integrasi pengukuran ketidakpastian dan kapasitas memori yang lebih panjang masih harus diatasi."

Prediksi Kami

Kedepannya, model seperti V-JEPA akan terus berkembang dan dapat digunakan untuk mengendalikan robot otonom dengan pemahaman fisik yang lebih mendalam, memungkinkan interaksi yang lebih alami dan aman dengan lingkungan fisik.

Pertanyaan Terkait

Q
Apa itu V-JEPA?
A
V-JEPA adalah sistem kecerdasan buatan yang belajar tentang dunia melalui video dan menunjukkan reaksi 'kejutan' terhadap informasi yang bertentangan dengan pengetahuannya.
Q
Bagaimana V-JEPA berbeda dari model AI lainnya?
A
V-JEPA tidak bekerja dalam ruang piksel, melainkan menggunakan representasi laten yang fokus pada detail penting dari video.
Q
Apa yang ditemukan oleh tim V-JEPA tentang pemahaman fisika intuitif?
A
Tim V-JEPA menemukan bahwa model ini hampir 98% akurat dalam memahami sifat fisika intuitif melalui pengujian bernama IntPhys.
Q
Siapa yang mengembangkan V-JEPA?
A
V-JEPA dikembangkan oleh tim di Meta, termasuk ilmuwan seperti Yann LeCun dan Quentin Garrido.
Q
Apa tantangan yang dihadapi oleh V-JEPA 2?
A
V-JEPA 2 menghadapi tantangan dalam menangani video yang lebih panjang karena memori model yang terbatas, yang mengingatkan pada ingatan ikan mas.