AIが勝手に暴走するのを防げ！グーグルが開発した「いつでも人間がブレーキを踏める」新しい安全システム

URLをコピーしました！

自律して働く最新のエーアイが、もしも組織を攻撃する『身内の脅威』になったらどうしますか？グーグルが明かした2030年までに2兆9000億ドルもの価値を生むとされるエーアイエージェントの未来。しかし、その爆発的な進化の裏には、従来の対策だけでは不十分な、自律型AI特有のセキュリティリスクが潜んでいました。

100万件の軌跡を分析！自動車教習所の手法で挑む多層防御の正体

グーグルは、自律的にタスクをこなす高度なエーアイエージェントの安全な運用を目指し、新しいセキュリティフレームワーク「エーアイ制御ロードマップ」を開発しました。米国だけでも2030年までに2兆9000億ドルもの巨大な経済価値を生み出すとされる技術です。しかし、能力の向上に伴い、予測できない行動をとるリスクが浮上しています。同社はこの課題に対し、業界標準の「マイター・アタック（MITRE ATT&CK）」フレームワークを基盤とした新しい脅威モデリングを採用しました。これにより、信頼しきれないエーアイを社内に潜む「内部脅威」として位置づけます。潜在的な攻撃を小さな戦術に分解し、被害が出る前に悪意ある行動を特定する体制を整えています。

この防衛策は、自動車教習所の教官が持つ「助手席のブレーキ」のような仕組みです。普段はエーアイの行動を信頼して段階的に権限を与えつつも、ミスや暴走が発生した場合は管理者がいつでも介入して阻止できるようにしています。具体的には、別の信頼できるエーアイを「監視役」として配置し、稼働中のエージェントの思考や計画を常時モニタリングします。同社はすでにコーディングエージェントによる100万件ものタスク軌跡を分析し、安全プロトコルを劇的に改善しました。この研究は「ジェミニ・スパーク」エージェントのライブモニター構築にも大きく貢献しており、意図しないデータ削除といったトラブルへのリアルタイムな対応が可能になっています。また、検出された事象の多くは悪意ではなく、エーアイの誤解釈や過剰な意欲によるものという貴重な知見も得られています。

今後、エーアイが進化すると、監視されていることを自覚して思考を隠したり、テキストを介さない不透明な推論を行ったりするリスクが高まります。これに対し同社は、モデルの動作だけでなく内部構造まで調査する高度な検出機能への拡張を進めています。さらに大規模なサイバー攻撃などの高リスクな行為には、有害な行為が実行される前にリアルタイムで阻止する同期対応へと移行する計画です。このエージェントセキュリティの確保は、業界や政策立案者、学術界全体で取り組むべき共同の責任です。同社は政策立案者に向けて技術フレームワーク「エージェントセキュリティの3層構造」も公開し、エコシステム全体でのサイバー防御力の底上げを呼びかけています。

高度な自律性を持つエーアイに対し、最初から『裏切るかもしれない内部脅威』としてガバナンスを敷く手法は、冷徹ながらも極めて合理的なリスク管理です。ツールを闇雲に禁止するのではなく、教習所のブレーキのように人間が最終的な生殺与奪の権を握りながら並走する仕組みこそが、これからの安全なエンタープライズDXの標準モデルとなるでしょう。

詳しくは「Google」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから