Qwen3-Omni Alibaba Tantang GPT-4o dan Gemini 2.5 di Pemahaman Audio dan Video

Memperkenalkan dan menunjukkan keunggulan Qwen3-Omni sebagai model multimodal terbaru yang mampu mengungguli model-model pesaing utama seperti GPT-4o dan Gemini 2.5-Flash dalam pemahaman audio, gambar, dan video, serta menandai kemajuan teknologi AI di pasar global.

23 Sep 2025, 17.30 WIB

6 dibaca

Ikhtisar 15 Detik

Qwen3-Omni adalah model AI multimodal yang canggih dari Alibaba.
Model ini menunjukkan kinerja yang lebih baik dalam berbagai aspek dibandingkan dengan pesaingnya.
Peluncuran Qwen3-Omni menandakan peningkatan kompetisi di industri teknologi AI.

China - Alibaba Group Holding baru saja memperkenalkan Qwen3-Omni, sebuah model kecerdasan buatan yang mampu memproses berbagai jenis data sekaligus, seperti teks, audio, gambar, dan video. Ini menjadi inovasi penting karena menawarkan sistem semua-dalam-satu yang dapat memahami beragam input secara bersamaan dan memberikan respons baik dalam bentuk teks maupun audio.

Qwen3-Omni adalah model multimodal end-to-end pertama yang menggabungkan empat jenis data dalam satu sistem. Teknologi ini bertujuan menyaingi model populer seperti OpenAI GPT-4o yang diluncurkan pada Mei 2024 dan juga Google Gemini 2.5-Flash yang dikenal dengan fitur pengeditan gambar innovatif bernama 'Nano Banana'.

Menurut tim pengembang Alibaba, dua varian dari Qwen3-Omni telah melalui pengujian benchmark dan menunjukkan performa lebih unggul dibanding versi sebelumnya, Qwen2.5-Omni-7B, serta model dari OpenAI dan Google. Peningkatan kapabilitas tersebut utamanya terlihat dalam pemahaman audio, gambar, dan video yang semakin hebat.

Peneliti dari tim Qwen dengan nama Lin Junyang menyatakan bahwa kemajuan ini dicapai berkat proyek dasar yang fokus pada pengembangan teknologi audio dan gambar. Hal ini memungkinkan Qwen3-Omni untuk menghadirkan respon yang lebih akurat dan cepat dalam konteks multimodalitas yang kompleks.

Persaingan antara perusahaan-perusahaan besar seperti Alibaba, OpenAI, dan Google di bidang kecerdasan buatan semakin ketat. Model terbaru ini bukan hanya menandai kemajuan teknologi, tapi juga menunjukkan bagaimana masa depan AI akan lebih terintegrasi dan mampu melayani kebutuhan dunia nyata secara lebih baik.

Referensi:
[1] https://www.scmp.com/tech/big-tech/article/3326525/alibaba-challenges-openais-gpt-4o-and-googles-nano-banana-new-multimodal-ai-model?module=top_story&pgtype=section

Analisis Ahli

Andrew Ng

"Model multimodal seperti Qwen3-Omni adalah masa depan AI karena menggabungkan berbagai bentuk data secara komprehensif, yang akan mengubah cara kita berinteraksi dengan teknologi."

Yann LeCun

"Integrasi berbagai modalitas dalam satu model adalah tantangan besar yang jika terpecahkan akan mempercepat kemajuan AI secara signifikan."

Analisis Kami

"Peluncuran Qwen3-Omni menandai terobosan penting dalam teknologi AI multimodal yang semakin dibutuhkan untuk aplikasi nyata yang kompleks. Namun, tantangan terbesar tetap pada penyempurnaan dan adaptasi teknologi ini agar dapat diakses secara global tanpa hambatan regulasi dan teknologi."

Prediksi Kami

Persaingan di bidang kecerdasan buatan multimodal akan semakin ketat dengan banyak perusahaan besar berupaya menciptakan model yang mampu mengintegrasikan berbagai jenis data sekaligus, berpotensi mempercepat inovasi di bidang asisten virtual dan teknologi interaktif.