毎秒1,009トークンの「メルクリーツー」、AIの応答は本当に速くなる？

URLをコピーしました！

従来の生成は遅いという思い込みを覆す動きが加速します。インセプションが「メルクリーツー」を公開し、並列リファインで高速化を実現しました。NVIDIA環境で毎秒1,009トークン、128KコンテキストやJSON整形対応など、運用要件を満たす設計が並びます。

拡張前提のAIに必要な“リアルタイム推論”を拡げる設計

インセプションは、拡張エージェントやRAGなどのループ実行を前提に、待ち時間の累積を抑えるアーキテクチャとしてメルクリーツーを公開しました。特徴は拡散ベースの推論により逐次デコードを回避し、複数トークンを同時生成して少数ステップで収束させる点です。左から右へ一文字ずつ出す旧来の律速を外し、編集者が全体下書きを磨く感覚で応答を確定させると説明されています。結果として速度曲線が変わり、推論の質を保ったままリアルタイムのレイテンシ予算に収めやすくなります。速度はNVIDIA Blackwell GPUで毎秒1,009トークンを示し、価格は入力100万トークン当たり0.25ドル、出力100万トークン当たり0.75ドルとしています。128Kの長文対応、ツール実行、スキーマに沿うJSON出力、推論の強度を調整できる機能も明記されました。

実サービスで体感される速度に最適化したとし、高並行時のp95レイテンシやターン間の一貫性、繁忙時のスループット安定性を重視したといいます。NVIDIA側からは、1,000トークン毎秒超の達成が同社プラットフォームの性能と拡張性を示すとのコメントが寄せられました。用途面では、コーディング支援やインタラクティブな編集、数十呼び出しを連鎖させるエージェントループ、会話主体のリアルタイム音声体験、マルチホップの検索や再ランキングを伴うRAGが挙げられています。各分野のパートナーや顧客は、トランスクリプト整形やHCI、広告キャンペーン最適化、音声エージェント、エンタープライズ検索での低レイテンシの価値を具体的に言及しています。開発者への導入ハードルとしては、OpenAI API互換で既存スタックに組み込みやすい点を強調しています。企業評価の場面では、期待する負荷条件での検証設計や適合性評価を支援すると案内されています。

運用設計では“感じる速さ”を重視する姿勢が前面にあります。連続する推論コールで遅延が累積する実情を踏まえ、エージェントや抽出処理のループを前提に速度と一貫性を最適化しています。推論コストと待機時間のトレードオフを再定義し、テスト時の計算量を増やしても体感レイテンシを抑える設計が掲げられています。音声対話では発話の間合いが厳格なため、リアルタイム域で“推論級”の品質を保てることが価値だと強調されました。検索やRAGでは、再要約や再ランキングが重なることで遅延が積み上がる問題に対し、推論を検索ループに組み込んでもレイテンシ予算を超えない利点を示しています。価格帯は高速最適化モデルと競合可能とし、品質は同セグメントで競争力があると記載されています。導入は既に開始可能で、チャットでの試用やアーリーアクセス申請の入り口が用意されています。

パートナーの声として、Viantは広告配信の最適化をリアルタイムで強化できたとコメントしています。Wispr Flowは会話的HCIやトランスクリプト整形で、有力モデルと比べてもメルクリーツーのレイテンシが突出していると述べました。Happyverse AIは、ビデオアバターの自然な会話には低遅延が不可欠で、安定した高速テキスト生成が体験を支えるとしています。OpenCallは音声エージェントにおける応答性の改善を評価しました。SearchBloxはエンタープライズ検索でのリアルタイム知能の実装が現実的になったとし、顧客サポートやコンプライアンス、リスク、分析、ECの領域での波及を述べています。速度、価格、API互換、長文対応、ツール実行、JSON整形という運用必須の要件がまとまり、拡張志向の利用に適したプロファイルが示されました。公開日は2026年2月24日で、カテゴリはプロダクトとして案内されています。

見解
逐次デコードを外す設計が、体感速度と推論品質の両立を現実解に近づけています。OpenAI互換と価格設計は、既存運用が“そのまま速くなる”期待を後押しするといえます。

詳しくは「Inception」の公式ページまで。
レポート／DXマガジン編集部

シェアはこちらから