DeepSeek R1 Versi Ringan Lebih Unggul di Tes Matematika dan Hemat GPU
Courtesy of TechCrunch

DeepSeek R1 Versi Ringan Lebih Unggul di Tes Matematika dan Hemat GPU

Memperkenalkan model AI reasoning versi kecil yang lebih efisien, DeepSeek-R1-0528-Qwen3-8B, yang memiliki performa unggul dalam beberapa benchmark matematika dan dapat digunakan secara bebas dengan lisensi MIT.

30 Mei 2025, 00.01 WIB
70 dibaca
Share
Ikhtisar 15 Detik
  • DeepSeek meluncurkan model AI baru yang lebih kecil dan efisien.
  • Model ini menunjukkan kinerja yang baik dalam tugas matematika dibandingkan dengan model besar lainnya.
  • Model tersebut tersedia secara komersial dan dapat diakses melalui API.
Tiongkok - DeepSeek baru-baru ini merilis versi kecil dari model reasoning AI mereka yang bernama DeepSeek-R1-0528-Qwen3-8B. Model ini dikembangkan dengan basis Qwen3-8B, model AI dari Alibaba yang diluncurkan pada Mei. Versi kecil ini dirancang agar bisa digunakan oleh para peneliti dan pengembang dengan sumber daya terbatas.
Model kecil ini menunjukkan performa yang sangat kuat pada beberapa tes matematika. Dalam tes AIME 2025, yang dikenal sebagai kumpulan soal matematika yang menantang, DeepSeek-R1-0528-Qwen3-8B mampu mengungguli model Google Gemini 2.5 Flash. Selain itu, pada tes HMMT yang juga berfokus pada keterampilan matematika, model ini hampir menyamai performa Phi 4 dari Microsoft.
Salah satu keunggulan DeepSeek-R1-0528-Qwen3-8B adalah efisiensi komputasi. Model ini bisa dijalankan menggunakan GPU dengan RAM 40GB sampai 80GB, seperti Nvidia H100, jauh lebih ringan dibandingkan model R1 penuh yang memerlukan banyak GPU berukuran besar. Hal ini memungkinkan akses yang lebih luas di kalangan akademisi dan pengembang industri kecil.
Untuk melatih model distilasi ini, DeepSeek menggunakan teknik fine-tuning pada Qwen3-8B dengan memanfaatkan teks yang dihasilkan oleh model R1 penuh. Metode ini membuat model kecil tersebut mampu mendekati kemampuan reasoning model besar dengan biaya yang jauh lebih kecil.
Model DeepSeek-R1-0528-Qwen3-8B tersedia secara bebas di platform seperti Hugging Face dengan lisensi MIT yang memperbolehkan penggunaan komersial tanpa batasan. Beberapa penyedia layanan, termasuk LM Studio, sudah menawarkan akses ke model ini melalui API yang memudahkan penggunaannya.

Artikel Serupa

DeepSeek Rilis Prover-V2, Publik Menunggu Model Penalaran R2SCMP
Teknologi
1 bulan lalu
42 dibaca

DeepSeek Rilis Prover-V2, Publik Menunggu Model Penalaran R2

DeepSeek Rilis Model AI Prover-V2, Tantang Alibaba dalam Persaingan AISCMP
Teknologi
1 bulan lalu
45 dibaca

DeepSeek Rilis Model AI Prover-V2, Tantang Alibaba dalam Persaingan AI

Alibaba Luncurkan Qwen3: Model AI Open-Source Terbaru dengan Kemampuan MultibahasaSCMP
Teknologi
1 bulan lalu
129 dibaca

Alibaba Luncurkan Qwen3: Model AI Open-Source Terbaru dengan Kemampuan Multibahasa

DeepSeek mengesankan para pengkode dengan model V3 open-source yang lebih kuat.SCMP
Teknologi
2 bulan lalu
34 dibaca

DeepSeek mengesankan para pengkode dengan model V3 open-source yang lebih kuat.

Alibaba meluncurkan model AI yang diklaimnya mengalahkan DeepSeek dan OpenAI.SCMP
Teknologi
3 bulan lalu
175 dibaca

Alibaba meluncurkan model AI yang diklaimnya mengalahkan DeepSeek dan OpenAI.

Alibaba meluncurkan pesaing baru DeepSeek, mendorong lonjakan saham sebesar 7%.SCMP
Teknologi
3 bulan lalu
108 dibaca

Alibaba meluncurkan pesaing baru DeepSeek, mendorong lonjakan saham sebesar 7%.