MENU

DX用語集

マルチモーダルAI/多種類のデータをもとに処理

  • URLをコピーしました!

マルチモーダルAIとは、テキスト、画像、音声、動画など複数の情報モダリティ(形態)を組み合わせて理解・処理するAI技術です。従来のAIは、例えば「画像だけ」や「テキストだけ」といった単一の情報しか扱えませんでしたが、人間が目や耳、言葉など複数の感覚を使って物事を理解するのと同様に、AIも多様なデータを統合的に処理できるようにするのがこの技術の目的です。

例えば、画像を見て「この写真には犬が写っていて、その背景には桜が咲いている」と自然言語で説明したり、動画を見てその場の状況や感情を把握する、といった応用が可能になります。OpenAIのGPT-4やGoogleのGeminiなど、マルチモーダルに対応したAIはすでに登場しており、教育・医療・製造・マーケティングなど多くの分野で活用が進んでいます。

シェアはこちらから
  • URLをコピーしました!
  • 週刊SUZUKI
  • 企業風土の礎
  • DXMLINE

メルマガ登録

メールアドレス (必須)

お問い合わせ

取材のご依頼やサイトに関するお問い合わせはこちらから。

問い合わせる