NECは、物流倉庫や工場、建設現場など広域エリアで、事前学習不要のVLM技術によりテキスト入力だけで作業行動を認識するAIを開発しました。即日導入で現場全体の最適化を目指します。
事前学習不要の仕組みと広域同定のポイント

NECが2025年8月27日に発表した本技術は、視覚と言語を結び付ける視覚言語モデル(VLM)を活用し、現場映像の事前学習を不要にした点が最大の特徴です。運用者は「棚から荷物を取り出している」「台車を押して運んでいる」といった作業説明のテキストを入力するだけで、像中の該当行動を認識できます。従来必要だった映像収集やアノテーション、学習の数週間に及ぶ準備を省略できるため、即日導入が可能になります。
さらに、NEC独自の人とモノとの関係性を捉えるAIモデルが、人が触れたり操作したりする物体を特定し、その映像領域をVLMで特徴量化する仕組みで、雑多な現場でも行動認識の精度向上を図ります。広域の現場で複数カメラを跨いで作業員を追跡・同定するために、各カメラ画像の人物位置(2次元座標)からデジタルツイン空間の3次元位置を推定し、デジタルツイン上で移動パターンの近さを測ることで高精度な同一人物同定を実現します。
外観特徴(作業服など)に頼らずに同一人物を識別できるため、同一ユニフォームの複数作業者が混在する環境でも誤同定を抑制します。加えて、位置推定に必要なカメラパラメータ(カメラの位置や姿勢)を自動推定する機能により、現場導入時の手間を軽減します。NECは本技術を用い、作業効率向上や人的リソース最適配分、ワークフロー適正化など広域現場全体の可視化と最適化に貢献することを目指し、2026年度までの実用化を目標としています。
詳しくは「日本電気株式会社」の公式ページまで。
レポート/DXマガジン編集部 權






















