Courtesy of SCMP

Rahasia Keberhasilan DeepSeek: Gabungan Desain Perangkat Keras dan Perangkat Lunak AI Murah

Mengungkap pendekatan hardware-software co-design yang memungkinkan pelatihan sistem AI berkinerja tinggi dan efisien biaya dengan memanfaatkan optimasi teknis dan arsitektur model khusus.

16 Mei 2025, 18.00 WIB

73 dibaca

Ikhtisar 15 Detik

DeepSeek berhasil mengembangkan sistem AI open-source yang efisien biaya melalui pendekatan inovatif.
Penggunaan GPU Nvidia H800 memungkinkan DeepSeek untuk melatih model AI dengan skala besar meskipun ada tantangan regulasi.
Arsitektur mixture-of-experts menawarkan cara baru dalam merancang model AI untuk meningkatkan efisiensi dan kolaborasi.

China - DeepSeek, sebuah start-up AI dari China, mengungkap rahasia di balik keberhasilan mereka membangun sistem AI open-source yang sangat kuat namun dengan biaya yang jauh lebih rendah dibandingkan pesaingnya. Pendekatan yang mereka gunakan adalah gabungan antara desain perangkat keras dan perangkat lunak yang saling melengkapi.

Dalam makalah terbaru yang ditulis bersama oleh pendiri DeepSeek, Liang Wenfeng, dijelaskan bahwa mereka menggunakan ribuan GPU Nvidia H800 yang sempat dilarang ekspor ke China untuk melatih model AI mereka. Keberhasilan ini didukung oleh teknik optimasi yang meningkatkan efisiensi memori dan komunikasi antar-chip.

Salah satu inovasi penting dalam sistem DeepSeek adalah penggunaan model mixture-of-experts (MoE), yakni membagi model AI menjadi beberapa sub-jaringan yang masing-masing menangani bagian tertentu dari data. Ini memungkinkan proses pelatihan yang lebih efisien dan lebih hemat biaya.

DeepSeek sadar akan keterbatasan perangkat keras dan biaya pelatihan yang sangat tinggi untuk model bahasa besar seperti yang dipakai dalam chatbot AI populer. Karena itu, mereka fokus pada co-design hardware dan software untuk mengatasi tantangan tersebut dengan cara baru.

Makalah tersebut menyatakan bahwa strategi DeepSeek dapat menjadi contoh praktis dan blueprint untuk inovasi di bidang sistem AI generasi berikutnya, khususnya dari sisi pemanfaatan perangkat keras yang efisien dan model arsitektur yang inovatif.

Sumber: https://www.scmp.com/tech/big-tech/article/3310639/deepseek-paper-offers-new-details-how-it-used-2048-nvidia-chips-take-openai?module=top_story&pgtype=section

Pertanyaan Terkait

Apa yang diungkapkan oleh makalah penelitian DeepSeek?

Makalah penelitian DeepSeek mengungkapkan bagaimana mereka membangun salah satu sistem AI open-source paling kuat dengan biaya yang jauh lebih rendah dibandingkan pesaing.

Apa yang menjadi kunci keberhasilan DeepSeek dalam pelatihan model AI?

Kunci keberhasilan DeepSeek terletak pada pendekatan co-design perangkat keras-perangkat lunak yang mengatasi tantangan biaya dan efisiensi.

Apa itu arsitektur model mixture-of-experts yang digunakan oleh DeepSeek?

Arsitektur model mixture-of-experts membagi model AI menjadi sub-jaringan terpisah yang masing-masing fokus pada subset data input, bekerja sama untuk meningkatkan efisiensi.

Mengapa Nvidia H800 menjadi penting bagi DeepSeek?

Nvidia H800 penting bagi DeepSeek karena digunakan untuk melatih model AI mereka secara massal, meskipun ada larangan ekspor ke China.

Apa yang dimaksud dengan pendekatan co-design perangkat keras-perangkat lunak?

Pendekatan co-design perangkat keras-perangkat lunak berarti mereka merancang model AI dengan mempertimbangkan batasan dan biaya perangkat keras yang ada.