オムロン サイニックエックス(OSX)は、ICCV 2025でハイライト論文に選出された「CaptionSmiths」を発表しました。画像説明文の長さ・詳しさ・語彙の個性を数値で滑らかに制御する新手法で、従来比で調整精度が大幅に向上した点が注目です。
CaptionSmiths―画像説明文のスタイルを数値で制御
オムロン サイニックエックス株式会社(OSX)は、国際会議「ICCV 2025」(開催:2025年10月19日〜23日、ハワイ・ホノルル)において、「CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning」を発表します。ICCV 2025には11,239件の投稿があり、そのうち2,701件(約24%)が採択されました。採択論文のうち263件(約9.7%)がハイライト論文に選出されており、本論文はそのハイライトに選出されています。
CaptionSmithsは、画像説明文(キャプション)における言語パターンを細かく制御する手法です。本手法は説明文の「長さ(短い↔長い)」「詳しさ(シンプル↔詳細)」「語彙の独自性(一般的↔ユニーク)」といった特徴を数値化し、それらの間を滑らかに調整できます。これにより「やや長めに」「少しユニークに」といった微妙な指示を反映したキャプション生成が可能になります。従来のVision–Languageモデルが苦手としていたこうした細かなスタイル制御を実用的に行える点が、本手法の特徴です。
論文では、CaptionSmithsによりキャプションの正確性が向上したことに加え、文章の長さを調整する精度が従来の最先端モデルと比べて5倍以上改善したと報告されています。著者はKuniaki Saito(OSX)、Donghyun Kim(Korea University)、Kwanyong Park(University of Seoul)、Atsushi Hashimoto(OSX)、Yoshitaka Ushiku(OSX)で、国際共同の研究体制でまとめられています。所属は論文執筆時点のものである旨の注記も付されています。
オムロン サイニックエックスは、「AI」「ロボティクス」「IoT」「センシング」などの領域で研究を進める戦略拠点であり、今回の発表は同社の研究活動の一端を示すものです。発表内容や詳細は、ICCV 2025および論文発表資料をご確認ください。
詳しくは「オムロン株式会社」の公式ページまで。
レポート/DXマガジン編集部 權






















