マイクロソフト、専用ファイバーを25％超増強 AIライフサイクルをほぼリアルタイム連携へ

URLをコピーしました！

マイクロソフトは10月、アトランタの第2フェアウォーターAIデータセンターを稼働させ、ウィスコンシンのサイトと専用AI WANで直結しました。数十万のGPU群とエクサバイト級ストレージを束ね、AIモデル学習を数か月から数週間へ短縮するインフラを目指します。

専用ネットワークで結ぶ「分散された一つのスーパーファクトリー」

マイクロソフトのフェアウォーターは、単なる高性能データセンターの増設なく、相互接続された複数サイトが協調して動く「AIスーパーファクトリー」として設計されています。アトランタの新サイトはフェアウォーターの2号機であり、ウィスコンシンの投資済みサイトと同様のアーキテクチャを共有します。各サイトには数十万のNVIDIA Blackwell GPUを支えうる72 GPUラックスケール構成が採用され、エクサバイト級のストレージや数百万のCPUコアが並列で機能します。こうしたリソースを専用のAIワイドエリアネットワーク（AI WAN）で結ぶことで、従来は1拠点では実行困難だった大規模学習ジョブを複数サイトで分散・協調して処理し、ジョブ完了時間を劇的に短縮します。

フェアウォーターの設計的特徴は多岐にわたります。まずラック当たりのスループットを最大化する新チップとラック設計、そしてNVL72のラックスケールシステムにより高密度GPU配置を実現します。物理設計では2階建ての採用により同一フットプリントにより多くのGPUを詰め込み、ラック内外での物理的近接性がメモリ共有や低レイテンシ通信を可能にします。ネットワーク面では、サイト内の短い配線と高スループット回線を組み合わせ、GPU間の結果共有やモデル更新の遅延を最小化することを目指しています。これにより、ある部分がボトルネックになって他のGPUがアイドルになる事態を回避し、常にGPUを稼働状態に保つことが可能になります。

接続面では、AI WANが鍵を握ります。専用の光ファイバーは一部新規敷設、一部既存取得ファイバーの再利用で構成され、同社は約12万マイルの専用ファイバーを展開しており、年間で総延長を25％超増加させました。ネットワークプロトコルとアーキテクチャは輻輳を避けるよう微調整され、可能な限り直接的な経路を確保します。これにより、前処理、事前トレーニング、微調整、強化学習、評価、合成データ生成といったAIライフサイクル全体が、複数拠点でほぼリアルタイムに協して進行できます。冷却については、GPU密度が生む熱負荷に対処するために複雑な閉ループ液体冷却システムを採用し、高温の冷媒を建物外に送り出して冷却後にGPUへ戻します。アトランタ初期の充填水は20世帯の年間消費量に相当し、化学的要件が生じた場合のみ交換する設計です。これらの要素は、OpenAIやMicrosoftのAIチーム、Copilot機能などのフロンティアモデルと推論ワークロードを支えるため、理論的能力だけでなく実運用でのパフォーマンスを重視して最適化されています。

詳しくは「マイクロソフト」の公式ページまで。
レポート／DXマガジン編集部　權

シェアはこちらから