AIに特定のデータだけを「忘れさせる」技術、機械学習のアンラーニング。GDPRの「忘れられる権利」などを守るための生存条件となりつつありますが、実は「本当に消えたか」を外部から証明するのは至難の業でした。グーグル・リサーチが発表した、わずか数千のサンプルでAIのデータ漏洩を暴く画期的な新フレームワークの正体に迫ります。
従来の2標本検定の欠陥を克服、3標本の相対距離で「消えない痕跡」を暴く
Google Research(グーグル・リサーチ)の研究員であるモニカ・リベロ氏は2026年6月10日、機械学習モデルのアンラーニング(忘却・非学習)や差分プライバシーを数学的・統計的に厳密に検証できる新しい監査フレームワーク「正則化fダイバージェンスカーネルテスト」を発表しました。この研究はトップカンファレンスである「AISTATS 2026」で発表されたものです。AIモデルの大規模化と機密データの増加に伴い、モデルを最初から再学習させる莫大なコストを回避しつつ、特定のデータだけを安全に消去するアンラーニングの技術は、欧州GDPRの「忘れられる権利」への規制遵守や安全性の観点から今や厳格な要件となっています。しかし、外部の監査担当者はモデルの内部構造や元のトレーニングデータに直接アクセスできないことが多く、システムの安全性を外部からのクエリ(質問)と出力の分析だけで検証する高精度な手法が切実に求められていました。
これまでデータサイエンティストらは、データを忘れたとされるモデルの出力と、最初からそのデータを学習していないモデルの出力を比較する「2標本検定(最大平均不一致:MMDなど)」を用いて検証を行ってきました。しかし、大規模モデルに内在するランダムノイズや、バッチサイズの違いといった安全上問題のない分布のズレを「学習解除の失敗」と誤判定する「偽陽性」が多発する致命的な欠陥がありました。さらに、近年の研究では、既存の設定を微調整(ファインチューニング)するだけの近似的なアプローチでは、データの痕跡を完全に消し去ることは根本的に不可能であることが示されています。そのため、従来のテストでは、実用レベルで安全なモデルすら一律に「失敗」と判定してしまう限界を迎えていました。
今回提案された新フレームワークは、従来の2標本検定の枠組みを覆し、アンラーニングされたモデルが「完全に安全にゼロから再学習されたモデル(ゴールドスタンダード)」と「機密データを記憶したままの元のモデル」のどちらに統計的に近いかを測定する「3サンプル相対距離テスト」を採用しています。さらに、カイ二乗値やKLダイバージェンス、プライバシーの閾値を制御するホッケースティック型乖離といった複数の「fダイバージェンス」を適応型センサーとして活用することで、データ内の局所的な異常や微妙なデータ漏洩を自動かつ正確に検知します。実験では、従来の監査手法(DP-Auditoriumなど)が違反検出に数百万のサンプルを必要としていたのに対し、わずか数千のサンプル数で優れた検出性能を発揮しました。なお、この検証により、一般的なファインチューニングやプルーニング、選択的シナプス減衰といった簡易的なアンラーニングアルゴリズムはデータを完全に忘却させるには効果がなく、検証をクリアできたのは「ランダムラベル法」のみであったという、開発者にとって衝撃的な事実も明らかになっています。
見解として、AIが学習した機密データを確実に「忘却」させたかを証明する監査ガバナンスは、これからのAI安全性における決定的な評価基盤となります。 従来の検定の限界を「相対的な3サンプル比較」と「適応型fダイバージェンス」で突破し、監査に必要な計算コスト(サンプル数)を数百万から数千へと劇的に削減したグーグルの新フレームワークは、実社会におけるAIプライバシー侵害を防ぐ強力な盾となるでしょう。
詳しくは「Google Research」の公式ページまで。 レポート/DXマガジン編集部 戸田





















