音声AIが“思考”を手に入れた。新モデル「GPT-Realtime-2」登場！翻訳・文字起こしもリアルタイム化し、アプリが「耳と口」を持つ時代へ

URLをコピーしました！

音声がソフトウェアの主要なインターフェースへ近づく中、APIに三つのオーディオモデルが導入され、自然で賢く、即時に行動できる音声体験の構築が可能になりました。GPT-Realtime-2は会話の流れを維持しながら推論し、必要に応じてツールを呼び出すことができます。GPT-Realtime-Translateは70以上の入力言語から13の出力言語へ低遅延で訳し、話者のペースを保ちます。GPT-Realtime-Whisperは話している間に文字起こしを進め、キャプションや会議ノートの迅速化に寄与します。これらのモデルは、単純なコール&レスポンスを超え、聞き、推論し、翻訳し、書き起こし、状況に合った応答を返す音声インターフェースへの移行を後押しします。運転中の支援、空港での予定変更、多言語サポートなど、日常の利用場面に即した体験設計がしやすくなります。

GPT-Realtime-2の特徴とベンチマーク結果

GPT-Realtime-2はライブ対話のために設計され、前置きの短いフレーズを挿入して処理中であることを伝えられます。並列ツールコールとツール透明性により、会話を維持しながら複数の操作を同時進行できます。失敗時の回復行動が強化され、静かな中断ではなく状況を説明して再試行する振る舞いを示します。コンテキストウィンドウは128Kへ拡張され、長いセッションや複雑なワークフローを支えます。専門用語や固有名詞、医療用語の保持が向上し、より現場に近い語彙運用が可能です。推論レベルは最小、低、中、高、超高から選べ、単純なやり取りでは低遅延、複雑な要求では慎重な推論というバランスを取れます。評価では、Big Bench AudioでGPT-Realtime-1.5比15.2パーセント高いスコア、Audio MultiChallengeで指示追従が13.8パーセント高いとされ、ライブ会話での推論力や文脈管理の向上が数値で示されています。

音声AIの三つのパターンと活用事例

音声活用は三つのパターンに整理されます。ボイス・トゥ・アクションは、人の要望を理解しツールでタスクを完了させる流れです。システム・トゥ・ボイスは、アプリの文脈情報をライブの音声指導へ変換します。音声対音声は、言語や文脈を越えてライブ会話を継続させます。Zillowは複雑な音声操作でも通話成功率が向上し、プロンプト最適化後に95パーセントへ到達したと述べています。ドイツテレコムは多言語会話での低遅延と流暢さを確認しています。Vimeoは製品教育動画を再生しながらのリアルタイム翻訳を提示し、別制作を待たずに希望言語で更新情報を届ける方法を示しました。これらの事例は、顧客接点から業務運用まで幅広い場面での展開可能性を示します。

GPT-Realtime-TranslateとGPT-Realtime-Whisperの導入価値

GPT-Realtime-Translateは、話者のペースを保ちながら意味を維持することに重点が置かれ、地域発音やドメイン固有の言語にも対応します。ボルナAIの評価では、ヒンディー語、タミル語、テルグ語で他モデルより誤り率が12.5パーセント低いと報告されています。ライブの翻訳と並行して、GPT-Realtime-Whisperが低遅延で書き起こしを行うことで、字幕、会議メモ、要約作成の即応性が高まります。会議、教室、放送、イベントなど、口頭コミュニケーションの多い現場で、メモ生成やフォローアップを会話進行中に進める運用が可能です。音声エージェントに組み込めば、継続的な理解と即時の応答を支える基盤になります。翻訳との併用により、国境を越えた販売やサポートでの体験品質を底上げできます。

安全性、データ保護、価格と入手可能性

リアルタイムAPIは、アクティブ分類器で有害なコンテンツを検知し、特定の会話停止を可能にする保護策を組み込みます。サービス出力のスパムや欺瞞的利用を禁じ、AIとのやり取りを明示する方針が示されています。EUデータレジデンシーを完全にサポートし、企業のプライバシーへの配慮を明記しています。価格は、GPT-Realtime-2が音声入力トークン100万あたり32ドル、キャッシュ入力トークン100万あたり0.40ドル、音声出力トークン100万あたり64ドルです。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルです。入手はリアルタイムAPIで提供され、既存アプリへの追加や新規アプリの立ち上げが案内されています。まずは推論レベル設定や前置き、並列ツールコールの有効化を通じ、応答性と成功率のバランスを検証していく進め方が適しています。

詳しくは「Open AI」の公式ページまで。レポート／DXマガジン編集部

シェアはこちらから