AIは“単体で使う時代”の終わり？NTTがLLM連携を現実に

URLをコピーしました！

NTT株式会社は、推論中に大規模言語モデルのトークン語彙を精度劣化なく縮小し、異なるLLM間で共通の語彙集合を介して連携できる世界初の理論とアルゴリズムを確立しました。従来、アンサンブルのように複数モデルの予測結果を統合するには同一語彙が前提でしたが、この制約を取り払う成果です。推論時に全トークンの確率分布を、指定した部分語彙に都度変換しても出力傾向を変えない関係式を導出し、損失のない語彙縮小を実現したとしています。さらに、キャッシュの再利用や下位トークンの省略設計により、通常推論と同程度の計算コストで動作する実用アルゴリズムを提示しました。最大共通語彙での連携により、アンサンブルやNTT独自のポータブルチューニングなどの技術を、異種LLM間でも適用できる道が開けます。本成果は2026年4月23日から27日にかけて、リオデジャネイロで開催されるICLR 2026で発表される予定です。

背景トークン語彙の不一致が連携を阻んできた

LLMは次トークン予測を繰り返すことで文章を生成し、その候補集合であるトークン語彙は数万から数十万に及びます。開発組織や時期が異なるLLMでは語彙が一致しないのが一般的であり、この「語彙の壁」が、推論中の確率分布の比較や参照を難しくしてきました。結果として、複数モデルの合意に基づくアンサンブルや、別モデルへ専門知識を転移させるポータブルチューニングなど、トークンレベルの連携技術を異種LLM間で活用することは困難でした。NTTはこの課題に対し、推論品質を保ったまま語彙を自在に縮小するというアプローチで突破口を開いています。これにより、モデルごとに異なる語彙を共通集合に写像し、推論の土台を揃えることが可能になります。

技術の核損失なしの語彙縮小理論と効率的アルゴリズム

新技術の柱は二つあります。第一に、元の語彙でのトークン確率と、指定した部分語彙でのトークン確率を統一的に扱う理論枠組みを構築し、最終的な出力文字列の分布が不変となる関係式を導出した点です。これにより、全トークンに対して計算された次トークン予測を、部分語彙の候補だけに変換しても、推論精度を劣化させないことが可能になりました。第二に、実運用に耐える計算効率の確保です。過去計算のキャッシュ再利用により必要な複数予測の多くを再計算せず処理し、確率がほぼ0の下位トークンを省略する設計を採用。通常推論と同程度の計算コストで動作する変換アルゴリズムを実現したと説明しています。実機適用でも、指定バイト数以下のトークンのみで推論させるなど、様々な部分語彙条件で出力傾向が維持されることを確認しています。

最大共通語彙での連携異種LLMアンサンブルと知識転移を実証

応用面では、異なる語彙を持つLLMの「最大共通語彙」を抽出し、その上で各LLMを推論させることで、次トークン予測の共有を可能にしました。たとえば、片方が約15万トークン、もう片方が約13万トークンを持つ組み合わせに対して、約6万トークンの共通集合を形成し、精度や速度を損なうことなくアンサンブル連携を実現したとしています。実験では、語彙の異なるモデル同士のアンサンブルで、単体モデルを上回る推論精度の向上を確認しました。これにより、これまで阻まれていた知識の統合や転移が、推論時の連携レイヤーで実装可能になります。NTTが提唱するポータブルチューニングの適用範囲も、共通語彙を介することで一段と拡張できる見込みです。

詳しくは「NTT株式会社」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから