Alibaba Rilis Qwen3-Max-Thinking, Model AI Baru Penantang GPT-5.2 dan Gemini 3 Pro
Ringkasan berita
- Alibaba Cloud meluncurkan model AI Qwen3-Max-Thinking yang diklaim mampu menyaingi GPT-5.2-Thinking dan Gemini 3 Pro.
- Model ini unggul di berbagai benchmark reasoning, termasuk mencetak skor lebih tinggi pada Humanity’s Last Exam dan Arena-Hard v2.
- Qwen3-Max-Thinking sudah tersedia di Qwen Chat dan lewat API Alibaba Cloud untuk kebutuhan premium dan enterprise.
- Anak perusahaan Alibaba Group, Alibaba Cloud meluncurkan model kecerdasan buatan (AI) terbarunya, bernama Qwen3-Max-Thinking, baru-baru ini.
Alibaba memposisikan Qwen3-Max-Thinking sebagai model AI yang diklaim mampu menyaingi, bahkan melampaui, performa model papan atas seperti GPT-5.2-Thinking bikinan OpenAI dan Gemini 3 Pro milik Google.
Model ini menjadi flagship terbaru dari tim Qwen Alibaba Cloud, dan dirancang khusus untuk tugas-tugas yang membutuhkan reasoning (penalaran) kompleks.
Mulai dari pemecahan soal tingkat lanjut, pemrograman, hingga penggunaan AI sebagai agen yang bisa mengambil keputusan bertahap.
Baca juga: Alibaba Rilis Qwen-Image-2512, AI Gambar Open Source Penantang Google
Dalam pengumuman resminya, Alibaba menyebut Qwen3-Max-Thinking dikembangkan dengan skala parameter yang jauh lebih besar, serta dilatih menggunakan sumber daya komputasi masif melalui reinforcement learning.
Hasilnya, performa model disebut meningkat signifikan di berbagai aspek, seperti pengetahuan faktual, pemahaman instruksi, pemahaman preferensi manusia, hingga kemampuan agentic.
Benchmark Qwen3-Max-Thinking
Alibaba mengeklaim Qwen3-Max-Thinking telah diuji di 19 benchmark AI internasional dan mencatat performa yang sebanding dengan model-model terdepan industri.
Dalam sejumlah pengujian penalaran, model ini bahkan dilaporkan melampaui Gemini 3 Pro, terutama pada soal yang menuntut logika bertahap dan pengambilan keputusan berbasis konteks panjang.
Salah satu sorotan utama adalah performa di Humanity’s Last Exam, benchmark yang berisi ribuan soal matematika, sains, iilmu komputer, hingga humaniora tingkat pascasarjana yang dirancang sulit dicari jawabannya lewat mesin pencari.
Dengan bantuan fitur pencarian, Qwen3-Max-Thinking mencatat skor lebih tinggi (49,8 poin) dibanding Gemini 3 Pro (45,8 poin) dan GPT-5.2-Thinking (45,5poin).
Dalam aspek penalaran (reasoning), Qwen3 mencatat skor 98 poin pada benchmark HMMT Feb 25, mengungguli Gemini 3 Pro yang meraih 97,5 poin, dan hanya terpaut tipis dari GPT-5.2 dengan skor 99,4 poin.
Baca juga: Alibaba Rilis Quark AI Glasses, Kacamata Pintar Penantang Meta Ray-Ban
HMMT sendiri dikenal sebagai tolok ukur dengan tingkat kesulitan sangat tinggi, berisi soal logika dan matematika kompleks setara ujian olimpiade dan pascasarjana.
Hasil ini menunjukkan kemampuan Qwen3 dalam berpikir sistematis dan menyelesaikan persoalan berlapis sudah berada di level model AI teratas dunia.
Sementara itu, pada aspek instruction following dan alignment, Qwen3 tampil paling menonjol.
Di benchmark Arena-Hard v2, yang menilai kemampuan AI memahami instruksi kompleks, mengikuti perintah secara presisi, dan menyelaraskan respons dengan maksud pengguna, Qwen3 meraih skor 90,2 poin.
Angka tersebut unggul jauh dari GPT-5.2 yang mencatat 80,6 poin dan Gemini 3 Pro dengan 81,7 poin.
Bisa “berpikir” sambil pakai alat sendiri
Anak perusahaan Alibaba Group, Alibaba Cloud meluncurkan model kecerdasan buatan (AI) terbarunya, bernama Qwen2.5-Omni-7B, baru-baru ini.
Berbeda dari model AI generasi sebelumnya, Qwen3-Max-Thinking dibekali adaptive tool-use, kemampuan untuk memilih dan menggunakan alat secara otomatis di tengah percakapan, tanpa perlu disuruh pengguna.
Model ini dapat memanggil fitur pencarian untuk mengambil informasi terbaru, menggunakan memori untuk mengingat konteks pengguna, hingga menjalankan code interpreter untuk mengeksekusi potongan kode dan perhitungan kompleks. Semua proses itu bisa terjadi dalam satu alur reasoning.
Alibaba menyebut kombinasi ini membantu menekan halusinasi AI, karena model tidak hanya mengandalkan data pelatihan, tetapi juga memverifikasi jawaban lewat sumber eksternal dan komputasi nyata.
Baca juga: Alibaba Rilis Quark AI Glasses, Kacamata Pintar Penantang Meta Ray-Ban
Inovasi lain yang menjadi kunci Qwen3-Max-Thinking adalah pendekatan test-time scaling. Jadi alih-alih menghasilkan banyak jawaban sekaligus lalu memilih yang terbaik, model ini menggunakan strategi refleksi bertahap.
Qwen3-Max-Thinking secara aktif “belajar dari pengalamannya sendiri” saat menjawab, menyaring kesimpulan yang sudah pasti, lalu memfokuskan komputasi tambahan hanya pada bagian yang masih ambigu.
Alibaba menyebut teknik ini menghasilkan lonjakan skor di berbagai benchmark reasoning dan pemrograman, dengan konsumsi komputasi yang relatif lebih hemat dibanding pendekatan konvensional.
Qwen3-Max-Thinking sudah tersedia di layanan Qwen Chat, serta dapat diakses melalui API Alibaba Cloud dengan nama model qwen3-max-2026-01-23.
Alibaba juga memposisikan model ini sebagai opsi premium yang tetap kompetitif secara harga, terutama untuk kebutuhan enterprise, sebagaimana dihimpun dari laman resmi Qwen AI dan Venture Beat.
Tag: #alibaba #rilis #qwen3 #thinking #model #baru #penantang #gemini