OpenAIはGPT-5.4をChatGPT、API、Codexで提供開始し、複雑な実務タスクに最適化したフロンティアモデルとして位置づけました。ChatGPTではGPT-5.4 Thinkingが回答前に方針を示し、途中で指示を調整しやすくします。最大性能を求める用途向けにGPT-5.4 Proも用意し、長時間の推論や複雑なワークフローでの一貫性と品質を高めます。推論、コーディング、エージェントワークフローの最新成果を統合し、やり取り回数を抑えつつ成果物の正確性を向上します。最大100万トークンのコンテキストで長期タスクの計画と検証を可能にし、APIやCodexではネイティブなコンピュータ利用と大規模ツール連携に対応します。
ベンチマークと信頼性。GPT-5.2から幅広く向上
GPT-5.4はGDPvalで83.0%、SWE-Bench Proで57.7%、OSWorld-Verifiedで75.0%、Toolathlonで54.6%、BrowseCompで82.7%と報告されています。事実性も強化され、匿名化プロンプト検証で個別主張の誤り確率が33%、回答全体の誤りを含む可能性が18%低下しました。スプレッドシートやプレゼン、文書の生成品質は社内評価で改善し、プレゼンでは人間評価者が68.0%の割合でGPT-5.4を好みました。実務での長文や長期ワークフローでも一貫性を維持しやすくなっています。
ChatGPTのGPT-5.4 Thinking。文脈保持と計画提示で成果物の到達度を引き上げる
GPT-5.4 Thinkingは、回答前にアプローチを概説し、途中の方向修正を容易にします。ディープウェブ調査の継続性と精度が向上し、非常に具体的な問いにも関連情報を統合します。初期コンテキスト保持の改善により、長いやり取りでも整合性が保たれます。これらの強化は、調査、合成、意思決定補助などで有効です。
APIとCodex。ツール検索と大規模文脈でエージェント運用を安定化
GPT-5.4はPlaywrightなどと連携し、スクリーンショットに基づく操作やキーボード・マウスの自動化を実現します。APIではツール検索を導入し、必要時にツール定義を動的取得する方式でプロンプト膨張を抑制し、同等精度のまま総トークン使用量を47%削減した事例が示されています。最大100万トークンのコンテキストにより、計画から検証までを通したエージェント処理を可能にします。
視覚理解とコーディング。高解像度入力と低レイテンシで反復を短縮
視覚分野ではMMMU-Proで81.2%、OmniDocBenchの平均誤差は0.109となり、文書解析や高解像度画像の忠実な理解が進みました。コーディングではSWE-Bench Proで57.7%と報告され、Codexの/fastモードでトークン速度が最大1.5倍になり、実装からデバッグまでの反復を短縮します。Toolathlonの改善と組み合わせ、外部APIやCIを含む多段ワークフローを少ない遅延で完了できます。
詳しくは「OpenAI」の公式ページまで。レポート/DXマガジン編集部 權






















