マルチモーダルAIとは、テキスト、画像、音声、動画など複数の情報モダリティ(形態)を組み合わせて理解・処理するAI技術です。従来のAIは、例えば「画像だけ」や「テキストだけ」といった単一の情報しか扱えませんでしたが、人間が目や耳、言葉など複数の感覚を使って物事を理解するのと同様に、AIも多様なデータを統合的に処理できるようにするのがこの技術の目的です。
例えば、画像を見て「この写真には犬が写っていて、その背景には桜が咲いている」と自然言語で説明したり、動画を見てその場の状況や感情を把握する、といった応用が可能になります。OpenAIのGPT-4やGoogleのGeminiなど、マルチモーダルに対応したAIはすでに登場しており、教育・医療・製造・マーケティングなど多くの分野で活用が進んでいます。