Courtesy of TechCrunch
DeepSeek R1 Versi Ringan Lebih Unggul di Tes Matematika dan Hemat GPU
Memperkenalkan model AI reasoning versi kecil yang lebih efisien, DeepSeek-R1-0528-Qwen3-8B, yang memiliki performa unggul dalam beberapa benchmark matematika dan dapat digunakan secara bebas dengan lisensi MIT.
30 Mei 2025, 00.01 WIB
70 dibaca
Share
Ikhtisar 15 Detik
- DeepSeek meluncurkan model AI baru yang lebih kecil dan efisien.
- Model ini menunjukkan kinerja yang baik dalam tugas matematika dibandingkan dengan model besar lainnya.
- Model tersebut tersedia secara komersial dan dapat diakses melalui API.
Tiongkok - DeepSeek baru-baru ini merilis versi kecil dari model reasoning AI mereka yang bernama DeepSeek-R1-0528-Qwen3-8B. Model ini dikembangkan dengan basis Qwen3-8B, model AI dari Alibaba yang diluncurkan pada Mei. Versi kecil ini dirancang agar bisa digunakan oleh para peneliti dan pengembang dengan sumber daya terbatas.
Model kecil ini menunjukkan performa yang sangat kuat pada beberapa tes matematika. Dalam tes AIME 2025, yang dikenal sebagai kumpulan soal matematika yang menantang, DeepSeek-R1-0528-Qwen3-8B mampu mengungguli model Google Gemini 2.5 Flash. Selain itu, pada tes HMMT yang juga berfokus pada keterampilan matematika, model ini hampir menyamai performa Phi 4 dari Microsoft.
Salah satu keunggulan DeepSeek-R1-0528-Qwen3-8B adalah efisiensi komputasi. Model ini bisa dijalankan menggunakan GPU dengan RAM 40GB sampai 80GB, seperti Nvidia H100, jauh lebih ringan dibandingkan model R1 penuh yang memerlukan banyak GPU berukuran besar. Hal ini memungkinkan akses yang lebih luas di kalangan akademisi dan pengembang industri kecil.
Untuk melatih model distilasi ini, DeepSeek menggunakan teknik fine-tuning pada Qwen3-8B dengan memanfaatkan teks yang dihasilkan oleh model R1 penuh. Metode ini membuat model kecil tersebut mampu mendekati kemampuan reasoning model besar dengan biaya yang jauh lebih kecil.
Model DeepSeek-R1-0528-Qwen3-8B tersedia secara bebas di platform seperti Hugging Face dengan lisensi MIT yang memperbolehkan penggunaan komersial tanpa batasan. Beberapa penyedia layanan, termasuk LM Studio, sudah menawarkan akses ke model ini melalui API yang memudahkan penggunaannya.