OpenAIが最新の映像・音声生成モデル「Sora 2」を発表しました。物理挙動の再現性、音声や効果音の同期、カメオ機能などを備え、Sora iOSアプリでの公開を皮切りに企業の映像DX活用が現実味を帯びています。現場で何が変わるのか、押さえるべきポイントを解説します。
Sora 2の特徴と現場における活用ポイント
OpenAIのSora 2は、従来モデルから大幅に進化した映像+音声生成モデルです。物理法則に従った動作再現性が高まり、オリンピック体操やパドルボードでのバク転、さらには猫のトリプルアクセルといった高度な動的挙動を生成できる点が特徴です。従来のモデルで見られたオブジェクトの不自然なモーフィングが抑えられ、例えばバスケットボールがフープに自発的にワープするような誤りではなく、バックボードで跳ね返るといった現実的な反応を示します。これはワールドシミュレーターとしての信用性を高め、失敗や挙動の多様性を扱える点で実運用に向きます。
制御性も強化され、複数ショットにまたがる複雑な指示に従いながらワールド状態を維持できます。リアリスティック、シネマティック、アニメなど多様なスタイルを高品質で生成し、背景サウンドスケや効果音、音声も同期生成できます。現実世界の要素を直接注入する機能もあり、チームメイトのビデオを観察してその外観や声を忠実に再現して生成物に挿入することが可能です。この「カメオ」的な挿入は、一回限りの録画で似顔絵を作成し、シーンに参加させるワークフローを提供します。
Soraは新しいソーシャルiOSアプリとして招待制で展開され、カスタマイズ可能なフィードでジェネレーションやリミックスが可能です。フィードは、OpenAIの大規模言語モデルを活用した自然言語指示対応のレコメンダーで制御され、既定ではフォローや交流が重視される表示設計です。作成を最大化する設計方針のもと、時間最適化ではなく制作を促すユーザー体験を目指しています。運用面では、ティーン向けの世代数制限やカメオの権限制御、ChatGPT経由のペアレンタルコントロール、人間モデレーターの増員など安全対策を組み込みます。ローンチはまず米国とカナダ、当初は無償で提供され、ChatGPT Pro向けに高品質なSora 2 Proの実験的提供や将来的なAPIリリースも予定されています。
詳しくは「Open AI」の公式ページまで。
レポート/DXマガジン編集部 權






















