AIがあなたの代わりにパソコンを操作！Googleの「Gemini」に画面を見てクリック・入力する新機能が追加

URLをコピーしました！

Google DeepMindは、Gemini 3.5 Flashにコンピュータ利用機能をネイティブ統合しました。これにより、ブラウザやモバイル、デスクトップ環境を横断して、見て、推論し、行動できるエージェントを構築できるようになります。従来は単独提供のGemini 2.5コンピュータ使用モデルで対応していましたが、今回の統合でメインモデル上での一貫した体験と高い実行性能が実現されます。関数呼び出しやSearch、Mapsのグラウンディングに強みを持つGeminiに、標準機能としてのコンピュータ利用が加わることで、長期タスクの自動化がより信頼性を高めます。継続的なソフトウェアテストや知識労働の自動化など、エンタープライズ向けユースケースでのパフォーマンス向上が意図されています。開発者と企業はGemini APIおよびGemini Enterprise Agent Platformを通じて、すぐに利用を開始できます。

3.5 Flashでの実行能力と適用領域

Gemini 3.5 Flashは、組み込みのコンピュータ利用を通じてエージェント型タスクのパフォーマンスを高めることを目指しています。具体的には、アプリの解析や機能の分類といった操作を自動で実行し、結果を体系化して返すワークフローに対応します。プラットフォームをまたいだ連携が可能なため、Web操作からモバイル、デスクトップに至るまで、統一的なエージェント設計が行えます。これにより、複数環境を跨ぐ長時間の検証やオペレーションが必要なケースでも、安定したタスク遂行が期待されます。以前の2.5モデル単独提供時と比較して、メインモデル統合により開発から運用までの導線が短縮されます。企業は自社要件に合わせたカスタムエージェントを、Gemini 3.5 Flash上で信頼性高く構築できます。

セーフティ強化とエンタープライズ向けガードの実装

実運用での即効性注射に代表されるリスク低減のため、Gemini 3.5 Flashではコンピュータ利用に特化した敵対的訓練を実施しています。さらに、任意で有効化できる二つのエンタープライズセーフガードを提供し、機密または不可逆的な行動については明確なユーザー確認を求めることが可能です。あわせて、間接プロンプト注入が検出された場合にタスクを自動停止する仕組みを用意しています。これらに加え、深層防御の考え方を前提に、安全なサンドボックスや人間の関与による検証、厳格なアクセス制御を組み合わせることが推奨されています。安全対策の実装により、長期かつ複雑な自動化タスクにおけるガバナンスを強化できます。顧客事例の声も示され、価値創出が進んでいる状況が伝えられています。

導入方法と活用の第一歩

開始方法として、開発者と企業はGemini APIとGemini Enterprise Agent Platformから利用を始められます。まずはデモ環境で機能を試し、動作と安全性の挙動を確認したうえで実装に進む流れが示されています。参照実装やドキュメントが提供されており、標準的なセットアップと運用に至るまでの手順を把握しやすい構成です。エージェントの構築では、対象タスクの分解と許可範囲の定義を明確にし、機密操作には確認プロンプトを必ず組み込むことが有効です。プロンプト注入に対する停止条件を事前に設定し、サンドボックスと権限管理を併用して段階的に本番適用する進め方が適します。段階的検証と安全装備の併用により、エンタープライズ要件に沿った自動化基盤の立ち上げが可能になります。

詳しくは「Google DeepMind」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから