スマホからH100まで爆走。グーグル「Gemma 4」が放つ開放知能の衝撃

URLをコピーしました！

高性能AIは巨大で重いという常識は崩れるのでしょうか。グーグル・ディープマインドが公開した「ジェンマ4」は、31Bや26Bに加え、E2BとE4Bで端末内動作を前提にした設計です。アパッチ2.0で商用利用に開かれ、ダウンロードは累計4億超、派生は10万以上の規模です。エージェント化と推論強化をうたい、Arena AIでは31Bが3位、26Bが6位に入ります。サイズを超える“知能密度”が、導入の前提を塗り替えます。

端末で動く理由と現場で効く設計

ジェンマ4は同一技術基盤の「ジェミニ3」と並走し、オープンとプロプライエタリの併用体制をつくります。E2BとE4Bは推論時の有効パラメータを2Bと4Bに抑え、マルチモーダル、低遅延、エコシステム統合を優先します。スマートフォン、Raspberry Pi、NVIDIA Jetson Orin Nanoでの完全オフライン動作を想定し、Google Pixel、Qualcomm、MediaTekと連携します。長文処理はE2BとE4Bが128K、26Bと31Bが256Kのコンテキストに対応します。画像と動画は可変解像度で処理し、OCRやチャート理解にも適性を示します。

26BのMixture of Expertsは、推論時に約38億パラメータのみを起動し、トークン生成速度を重視します。31BのDenseは品質重視で、微調整の土台として設計されています。非量子化bfloat16の重みは80GBのNVIDIA H100に収まり、量子化版はコンシューマーGPUで動きます。ファンクションコーリング、構造化JSON出力、システムインストラクションをネイティブ実装し、ツール連携のエージェント基盤を提供します。コード生成はローカル優先で、ワークステーションをオフラインのコードアシスタント化します。

アパッチ2.0の採用で、商用展開、再配布、派生作成が柔軟になります。データやインフラ、モデル運用のコントロールを維持し、オンプレやクラウドを自在に選べます。Hugging FaceのClément Delangue氏は、初日対応を歓迎するコメントを示しています。セキュリティはプロプライエタリモデルと同等の手順を適用し、企業や主権組織の要件に配慮します。モデルカードでは多面的な評価指標を参照できます。Google AI Studioでは31Bと26B MoE、Google AI Edge GalleryではE4BとE2Bを試せます。

導入の選択肢は幅広く、Android StudioのAgent Mode、ML Kit GenAI Prompt API、そしてAICore Developer Previewでのエージェント試作に対応します。Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM、NeMo、LM Studio、Unsloth、SGLang、Cactus、Baseten、Docker、MaxText、Tunix、Kerasが初日サポートです。モデル重みはHugging Face、Kaggle、Ollamaで配布されます。Google CloudではVertex AI、Cloud Run、GKE、Sovereign Cloud、TPU加速で拡張し、規制ワークロードの順守に配慮します。Kaggleの「Gemma 4 Good Challenge」も開始され、社会的インパクト創出を後押しします。

ジェンマ4は“知能密度”を武器に、端末からクラウドまで一貫の実行経路を提示しました。小型モデルのマルチモーダル化と長文処理の両立が、現場のAI適用を広げる転換点になると考えられます。

詳しくは「Google」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから