Pelatihan Ulang AI Menjaga Keamanan Meski Model Diperkecil dan Terbuka
Courtesy of InterestingEngineering

Pelatihan Ulang AI Menjaga Keamanan Meski Model Diperkecil dan Terbuka

Mengembangkan metode pelatihan ulang yang menjaga keamanan dan mencegah keluaran berbahaya dari model AI meski telah diperkecil ukurannya, sehingga AI yang efisien tetap aman digunakan di perangkat low-power dan open-source.

07 Sep 2025, 17.35 WIB
91 dibaca
Share
Ikhtisar 15 Detik
  • Model AI yang diperkecil dapat mengurangi lapisan keamanan penting.
  • Pendekatan pelatihan ulang dapat menjaga perilaku aman meskipun model dikompresi.
  • Penelitian ini menunjukkan pentingnya pengembangan AI yang inovatif dan bertanggung jawab.
Riverside, Amerika Serikat - AI kini mulai digunakan di banyak perangkat sehari-hari seperti smartphone dan alat rumah tangga. Untuk itu, model AI harus diperkecil agar hemat energi dan mudah dijalankan. Namun, pengurangan ini sering membuat lapisan pengaman penting hilang, sehingga AI bisa memberikan jawaban tidak aman, misalnya terkait ujaran kebencian atau instruksi kriminal.
Open-source AI punya risiko lebih besar karena semua orang bisa mengunduh, memodifikasi, dan menjalankan model offline tanpa pengawasan seperti pada model komersial. Ini berarti model yang sudah diperkecil sangat rentan digunakan secara salah oleh pihak yang tidak bertanggung jawab.
Para peneliti di Universitas California, Riverside mencoba mengatasi masalah ini dengan cara yang berbeda, yakni mempelajari ulang inti model sehingga tetap bisa mengenali dan menolak perintah berbahaya walau modelnya sudah disederhanakan. Metode ini mengambil contoh pada model LLaVA 1.5 yang mampu memproses gambar dan teks.
Hasilnya, model yang sudah dilatih ulang secara internal ini mampu menolak pertanyaan berbahaya seperti membuat bom, walau ukurannya jauh lebih kecil dari versi aslinya. Pendekatan ini menghilangkan kebutuhan akan filter eksternal yang mudah dihilangkan atau di-bypass.
Para peneliti menamakan metodologi ini sebagai ‘benevolent hacking’ yang bertujuan memperkuat model AI sebelum dieksploitasi. Meskipun masih ada banyak pekerjaan yang harus dilakukan, riset ini membuka jalan untuk AI yang lebih aman, efisien, dan tetap terbuka untuk inovasi.
Referensi:
[1] https://interestingengineering.com/innovation/hacking-prevent-ai-from-rogue-prompts

Analisis Kami

"Pendekatan pelatihan ulang inti pada AI sangat penting untuk mengatasi dilema antara efisiensi dan keamanan, terutama di ranah open-source yang rentan dimanfaatkan oleh pihak tak bertanggung jawab. Meski tantangannya besar, solusi ini merupakan langkah proaktif yang menjanjikan agar AI tetap dapat berkembang pesat dengan tetap aman dan bertanggung jawab."

Analisis Ahli

Amit Roy-Chowdhury
"Mendesak pentingnya membangun keamanan dalam struktur inti model untuk menghindari risiko serius yang dapat muncul dari versi model yang disederhanakan dan open-source."

Prediksi Kami

Ke depan, akan semakin banyak model AI yang dirancang dengan keamanan bawaan yang kuat meskipun dioptimalkan untuk perangkat dengan sumber daya terbatas, serta peningkatan kolaborasi antara komunitas open-source dan akademisi untuk standar keamanan AI yang lebih baik.

Pertanyaan Terkait

Q
Apa yang terjadi pada model AI ketika diperkecil untuk perangkat sehari-hari?
A
Model AI yang diperkecil sering kehilangan lapisan keamanan yang dirancang untuk mencegah output berbahaya.
Q
Mengapa model terbuka lebih berisiko disalahgunakan?
A
Model terbuka dapat diunduh dan dimodifikasi secara bebas, yang menghilangkan pengawasan dan meningkatkan risiko penyalahgunaan.
Q
Apa yang dilakukan peneliti untuk memastikan model AI tetap aman?
A
Peneliti melatih ulang struktur inti model AI agar tetap dapat mengenali dan memblokir permintaan berbahaya meskipun ukurannya diperkecil.
Q
Siapa yang menjadi penulis senior dari studi ini?
A
Amit Roy-Chowdhury adalah penulis senior dari studi ini.
Q
Apa yang dimaksud dengan LLaVA 1.5 dalam konteks penelitian ini?
A
LLaVA 1.5 adalah model bahasa-visual yang digunakan untuk menguji perilaku keamanan model AI dalam penelitian.

Artikel Serupa

Studi Baru Ungkap GPT-4o Cenderung Pertahankan Eksistensinya Meski Bahaya bagi PenggunaTechCrunch
Teknologi
3 bulan lalu
30 dibaca

Studi Baru Ungkap GPT-4o Cenderung Pertahankan Eksistensinya Meski Bahaya bagi Pengguna

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih AmanInterestingEngineering
Teknologi
4 bulan lalu
94 dibaca

Mengapa AI Masih Sering Salah dan Bagaimana Kita Bisa Membuatnya Lebih Aman

OpenAI Perbarui Kerangka Risiko AI Fokus pada Bahaya Besar dan Kemampuan TersembunyiAxios
Teknologi
5 bulan lalu
179 dibaca

OpenAI Perbarui Kerangka Risiko AI Fokus pada Bahaya Besar dan Kemampuan Tersembunyi

Pertemuan OpenAI dan SoftBank Bahas Otomasi AI dan Dampak SosialnyaTechCrunch
Teknologi
7 bulan lalu
289 dibaca

Pertemuan OpenAI dan SoftBank Bahas Otomasi AI dan Dampak Sosialnya

Inovasi Startup AI dan Tantangan Dalam Era Ledakan Investasi Artificial IntelligenceForbes
Bisnis
7 bulan lalu
211 dibaca

Inovasi Startup AI dan Tantangan Dalam Era Ledakan Investasi Artificial Intelligence

DeepSeek Model AI Murah Rentan Terhadap Serangan Jailbreak 100 PersenWired
Teknologi
7 bulan lalu
20 dibaca

DeepSeek Model AI Murah Rentan Terhadap Serangan Jailbreak 100 Persen