Courtesy of SCMP

Model AI Qwen3 Alibaba Unggul dalam Matematika dan Coding dari Kompetitor

Menginformasikan pembaruan dan keunggulan model bahasa besar Qwen3 keluaran Alibaba yang mampu mengungguli sejumlah produk rival dalam bidang matematika dan pengkodean serta penerapan praktisnya di produk nyata.

22 Jul 2025, 16.00 WIB

111 dibaca

Ikhtisar 15 Detik

Model Qwen3 terbaru dari Alibaba menunjukkan kinerja yang lebih baik dalam matematika dan kemampuan coding dibandingkan dengan kompetitor.
Model ini mendukung pemrosesan teks yang lebih panjang hingga 256.000 token berkat peningkatan dalam mode non-thinking.
Alibaba akan mengintegrasikan model Qwen yang lebih kecil ke dalam asisten pintar di PC mereka untuk meningkatkan produktivitas pengguna.

Tiongkok - Alibaba Group baru-baru ini merilis pembaruan untuk model bahasa besar (LLM) mereka, Qwen3, yang menunjukkan peningkatan signifikan dalam berbagai kemampuan seperti pemahaman instruksi, logika, teks, matematika, sains, pengkodean, dan penggunaan alat. Model terbaru ini dikenal sebagai Qwen3-235B-A22B-Instruct-2507-FP8.

Dalam tes matematika bergengsi American Invitational Mathematics Examination 2025, model ini berhasil mendapatkan skor 70,3, yang lebih unggul dibandingkan model pesaing dari DeepSeek dan OpenAI yang masing-masing memperoleh skor 46,6 dan 26,7. Hal ini menunjukkan keunggulan Qwen3 dalam penguasaan matematika.

Dari segi kemampuan pengkodean, Qwen3 juga menunjukan kehebatan dengan skor 87,9 pada benchmark MultiPL-E. Skor ini mengungguli model serupa dari DeepSeek dan OpenAI yang memiliki skor lebih rendah, meskipun masih tertinggal dibanding model Claude Opus 4 Non-thinking dari Anthropic.

Model terbaru ini hanya mendukung mode non-thinking, artinya ia langsung menghasilkan hasil tanpa memberikan langkah penalaran secara eksplisit. Keunggulan lain dari versi ini adalah kapasitasnya meningkat delapan kali lipat hingga bisa memproses teks hingga 256.000 token sekaligus, memungkinkan dialog atau pemrosesan dokumen yang sangat panjang.

Selain itu, Alibaba mengumumkan bahwa mereka akan mengintegrasikan model Qwen dengan 3 miliar parameter ke dalam asisten pintar yang dimiliki HP bernama Xiaowei Hui, yang dipakai pada komputer pribadi di Tiongkok. Dengan ini, asisten tersebut akan lebih cakap dalam membantu membuat dokumen dan merangkum hasil rapat.

Referensi:
[1] https://www.scmp.com/tech/big-tech/article/3319101/alibaba-upgrades-flagship-qwen3-model-outperform-openai-deepseek-maths-coding?module=top_story&pgtype=section

Analisis Ahli

Andrew Ng

"Kemampuan model bahasa besar untuk menangani matematika dan pemrograman secara lebih efisien menandai kemajuan besar menuju AI yang lebih praktis dan aplikatif dalam berbagai industri."

Yoshua Bengio

"Peningkatan kapasitas token merupakan langkah kritis untuk memungkinkan AI berinteraksi dengan data kontekstual dalam skala besar, meskipun aspek reasoning model perlu terus diperbaiki."

Analisis Kami

"Peningkatan signifikan yang dilakukan Alibaba menunjukkan kemajuan teknologi AI yang tidak hanya berfokus pada kapasitas parameter, tetapi juga pada optimasi kemampuan praktis seperti matematika dan coding yang penting bagi aplikasi dunia nyata. Namun, penggunaan mode non-thinking mungkin membatasi adopsi dalam kasus yang membutuhkan penalaran berlapis yang kompleks, sehingga masih ada ruang untuk pengembangan model berpikir yang lebih maju."

Prediksi Kami

Ke depan, persaingan antar perusahaan besar dalam pengembangan model bahasa besar akan semakin ketat dengan fokus pada peningkatan kemampuan khusus seperti pengolahan matematika dan pemrograman, serta penanganan teks panjang dalam aplikasi nyata seperti asistensi digital dan produktivitas kerja.

Pertanyaan Terkait

Apa yang diperkenalkan oleh Alibaba dalam artikel ini?

Alibaba memperkenalkan versi terbaru dari model Qwen3 yang menunjukkan peningkatan dalam kemampuan AI.

Seberapa baik kinerja model Qwen3-235B-A22B-Instruct-2507-FP8 dibandingkan dengan kompetitor?

Model Qwen3-235B-A22B-Instruct-2507-FP8 mengungguli produk OpenAI dan DeepSeek dalam beberapa tes, termasuk matematika dan coding.

Apa yang dimaksud dengan mode non-thinking yang digunakan oleh model baru ini?

Mode non-thinking adalah di mana sistem AI memberikan output langsung tanpa langkah pemikiran eksplisit.

Model apa yang memiliki skor tertinggi dalam benchmark coding?

Claude Opus 4 Non-thinking dari Anthropic memiliki skor tertinggi dalam benchmark coding dengan nilai 88.5.

Apa fungsi dari model Qwen yang berparameter 3 miliar?

Model Qwen dengan 3 miliar parameter akan diintegrasikan ke dalam asisten pintar HP, meningkatkan kemampuan seperti draf dokumen dan ringkasan pertemuan.