GLM-5.1: Model AI Open-Weight 754B yang Bisa Kerja Otonom 8 Jam dan Pecahkan Rekor di SWE-Bench Pro

GLM-5.1 dari Z.AI: model AI open-weight 754B parameter dengan kemampuan agentic, eksekusi otonom 8 jam, dan performa SOTA di SWE-Bench Pro. Pelajari arsitektur MoE+DSA dan cara deploy-nya.

Z.AI baru aja merilis GLM-5.1, model flagship terbaru mereka yang dibuat khusus buat agentic engineering. Bedanya sama model-model lain yang cuma dioptimasi buat benchmark single-turn, GLM-5.1 ini dirancang buat tugas-tugas agentic yang kompleks dan butuh eksekusi jangka panjang.

Model ini punya kemampuan coding yang jauh lebih kuat dari pendahulunya. Di SWE-Bench Pro, GLM-5.1 mencetak skor 58.4 dan ngalahin GPT-5.4, Claude Opus 4.6, serta Gemini 3.1 Pro. Nggak cuma itu, dia juga unggul jauh dari GLM-5 di NL2Repo dan Terminal-Bench 2.0.

Sebelum bahas performanya, ada baiknya kamu paham dulu arsitektur yang dipake. GLM-5.1 pake DSA atau Dynamic Sparse Attention, yang bikin biaya training dan inference jauh lebih murah tanpa ngurangi kualitas long context.

Di dalamnya ada arsitektur glm_moe_dsa, kombinasi dari Mixture of Experts atau MoE sama DSA. Buat kamu yang mau self-host, ini penting: model MoE cuma aktifin sebagian parameter tiap forward pass, jadi inference-nya lebih efisien ketimbang model dense seukuran sama.

Yang menarik lagi, GLM-5 pake asynchronous reinforcement learning infrastructure baru. Ini memisahkan generation dari training, bikin post-training jadi jauh lebih efisien. Algoritma RL agentic-nya juga bikin model belajar dari interaksi kompleks dan long-horizon dengan lebih baik.

Nah, ini yang jadi masalah besar di model-model sebelumnya. LLM yang dipake sebagai coding agent seringkali cepet "nyangkut" atau plateau. Mereka pake teknik yang udah familiar buat dapet hasil cepet, tapi abis itu stuck. Kasih waktu lebih lama juga nggak ngaruh.

GLM-5.1 dibuat buat ngatasin ini. Dia tetap efektif dalam jangka waktu yang jauh lebih lama, bisa nanganin masalah ambigu dengan judgment yang lebih baik. Model ini bisa pecahin masalah kompleks, jalanin eksperimen, baca hasil, dan identifikasi blocker dengan presisi.

Yang paling keren, GLM-5.1 bisa revisi strategi berulang kali lewat iterasi. Dia bisa sustain optimization ratusan round dan ribuan tool call tanpa kehilangan fokus. Ini butuh lebih dari sekedar context window besar — model harus maintain goal alignment selama eksekusi berjalan.

Di SWE-Bench Pro, GLM-5.1 cetak 58.4 dan jadi state-of-the-art. Di benchmark lain juga impresif: 95.3 di AIME 2026, 94.0 di HMMT Nov 2025, 82.6 di HMMT Feb 2026, dan 86.2 di GPQA-Diamond.

Buat agentic dan tool-use, skornya juga naik signifikan. CyberGym 68.7 (dari 48.3 di GLM-5), BrowseComp 68.0, τ³-Bench 70.6, dan MCP-Atlas 71.8. Yang terakhir ini penting banget soalnya MCP makin banyak dipake di production agent systems.

Terminal-Bench 2.0 dia dapet 63.5, naik jadi 66.5 kalo dievaluasi pake Claude Code sebagai scaffolding. Dari 12 benchmark yang mencakup reasoning, coding, agents, tool use, dan browsing, GLM-5.1 nunjukin profil kemampuan yang seimbang dan komprehensif.

Secara overall, kemampuan umum dan coding GLM-5.1 sejajar sama Claude Opus 4.6. Tapi bedanya ada di kemampuan eksekusi jangka panjang.

Ini yang paling beda dari GLM-5.1: dia bisa kerja otonom di satu tugas kompleks sampai 8 jam. Dari planning, eksekusi, testing, fixing, sampe delivery — semua berjalan tanpa intervensi manusia.

Buat developer yang bangun autonomous agents, ini game-changer. Kamu nggak perlu lagi orkestrasi model lewat puluhan tool call pendek. Cukup kasih GLM-5.1 objective yang kompleks dan biarin dia jalanin loop "eksperimen–analisis–optimasi" secara mandiri.

Beberapa demonstrasi engineering yang udah dicoba: bangun complete Linux desktop environment dari nol dalam 8 jam, 178 round autonomous iteration buat vector database task dengan improvement 1.5×, dan optimasi CUDA kernel dari speedup 2.6× jadi 35.7×.

Yang terakhir ini notable banget buat ML engineers. Meningkatin kernel speedup sebesar itu lewat optimasi iteratif otonom butuh waktu lama kalo dikerjain manual oleh engineer berpengalaman.

GLM-5.1 punya 754 miliar parameter dengan arsitektur MoE, dirilis under MIT license di HuggingFace. Context window-nya 200K dan max output tokens 128K — keduanya penting buat long-horizon tasks yang perlu nampung codebase besar atau reasoning chains panjang.

Fitur yang didukung: thinking mode dengan multiple modes, streaming output, function calling, context caching, structured output, dan MCP buat integrasi external tools dan data sources.

Buat local deployment, GLM-5.1 support SGLang (v0.5.10+), vLLM (v0.19.0+), xLLM (v0.8.0+), Transformers (v0.5.3+), dan KTransformers (v0.5.3+). Buat API access, tersedia di platform Z.AI dengan kompatibilitas OpenAI SDK.

GLM-5.1 nggak cuma jago coding. Dia juga nunjukin improvement signifikan di front-end prototyping, artifacts generation, dan office productivity tasks kayak Word, Excel, PowerPoint, dan PDF. Ini bikin dia jadi foundation general-purpose buat agentic systems sekaligus content workflows berkualitas tinggi.

Praktisnya, kalo kamu developer atau researcher yang kerja dengan AI agents, GLM-5.1 worth dicoba. Model open-weight dengan performa SOTA ini bisa kamu deploy sendiri atau akses via API. Fokusnya ke long-horizon execution bikin dia cocok buat tugas-tugas engineering yang kompleks dan butuh iterasi panjang.

AI Updates lagi bergerak cepat, jadi jangan cuma lihat headline.
MarkTechPost

Catatan redaksi

Kalau lo cuma ambil satu hal dari artikel ini

AI Updates update dari MarkTechPost.

Sumber asli

Artikel ini merupakan rewrite editorial dari laporan MarkTechPost.

Baca artikel asli di MarkTechPost→

#AIUpdates#MarkTechPost#rss

GLM-5.1: Model AI Open-Weight 754B yang Bisa Kerja Otonom 8 Jam dan Pecahkan Rekor di SWE-Bench Pro

MarkTechPost

AI Updates update dari MarkTechPost.

Advertisement

Kalau lo cuma ambil satu hal dari artikel ini

Ditulis oleh Captivela AI

Bacaan selanjutnya

Škoda DuoBell: Bel Sepeda yang Bisa Tembus Headphone Noise-Cancelling

The Git Commands I Run Before Reading Any Code

Veracrypt Project Update