クロード超えの衝撃！最新AI「GLM-5.1」が放つ最強のコーディング力

URLをコピーしました！

初速だけ速いAIに限界を感じていませんか。Z.ai Inc.のGLM-5.1は長時間の反復で成果が伸び続けます。ベクトル検索でQPS2.15万を達成し、KernelBenchで3.6倍の高速化を記録しました。SWE-Bench Proは58.4でトップ水準です。なぜ「時間をかけるほど強い」のか。具体シナリオで検証します。

600回超の反復で性能は止まらないという事実

GLM-5.1は長期のエージェントタスクで改善を継続する設計です。従来のGLM-5は早い段階で伸びが鈍化しますが、GLM-5.1は推論を見直し、戦略を更新し続けます。VectorDBBenchでは外部最適化ループで制約を外し、編集とテストとプロファイリングを反復しました。約90回でIVFクラスタ走査とf16圧縮に切り替え、6.4k QPSに上昇します。約240回でu8事前スコアとf16再ランキングの二段構成に移行し、13.4k QPSを達成します。最終的に600回超の反復と6,000回超のツール呼び出しで21,500 QPSに到達しました。

GLM-5.1はSWE-Bench Proで58.4を記録します。GLM-5の55.1やGemini 3.1 Proの54.2を上回ります。NL2Repoでは42.7で、GLM-5の35.9より高い値です。Terminal-Bench 2.0のTerminus-2では63.5を示します。ベンチマークは再現率95％制約や200Kコンテキストなど明確な条件で運用されています。結果は段階的な微調整と構造転換が交互に現れる軌跡を描きます。転換点では一時的に再現率が下がるものの、制約を回復しながら前進しました。

KernelBenchレベル3では全50問題で3.6倍の幾何平均高速化です。参考としてtorch.compileのデフォルトは1.15倍、max-autotuneは1.49倍です。Claude Opus 4.6は4.2倍で最強とされますが、GLM-5.1は後半まで改善が続くのが特長です。評価はH100を用い、ツール使用は1200回に制限され、独立監査で速度と正しさが検証されます。長時間の反復が有益であるかどうかが鍵であり、GLM-5.1はその生産的な時間帯を拡張します。

Webアプリ構築では定量指標がありません。GLM-5.1は自己レビューのループで不足機能を洗い出し、改良を続けました。タスクバーから始まり、ファイルブラウザーやターミナル、テキストエディター、システムモニター、電卓、ゲームを一貫したUIに統合します。操作は滑らかになり、エッジケース処理も向上しました。短期で妥協せず、8時間の反復で完成度を高める様子が示されています。長期最適化の課題も明示され、自己評価の信頼性や実行トレースの一貫性が論点です。

GLM-5.1はMITライセンスで公開され、api.z.aiやBigModel.cnで利用可能です。Claude CodeやOpenClawとの互換性があります。モデル名をGLM-5.1に更新するとコーディングプランで利用できます。ピーク時間帯はクォータ3倍、オフピークは2倍で、4月末までの期間限定でオフピークは1倍です。ローカル提供ではHuggingFaceやModelScopeの重みを利用し、vLLMやSGLangで推論が可能です。Z.ai上での利用提供も予定されています。

見解として、時間が味方になるAIは業務フローの発想を変えます。GLM-5.1は長時間運用で真価を発揮する設計で、活用設計の転換点に立っています。

詳しくは「Z.ai Inc.」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから