MENU

【明星大学 植木准教授】画像・映像を中心としたマルチメディア認識技術について

植木准教授
取材にご協力頂いた方
明星大学/情報学部 植木准教授 略歴 東北大学大学院情報科学研究科修士課程を修了後、NECソフトウェア(現:NECソリューションイノベータ)に入社。顔認識やパターン認識といった画像処理技術の研究に携わる。2013年より早稲田大学理工学術院で助教として教育・研究に従事した後、2017年より明星大学情報学部准教授として着任。現在は、一般物体認識や映像理解技術の研究に取り組んでおり、特にアメリカ国立標準技術研究所(NIST)が主催する国際映像検索ベンチマーク「TRECVID」に積極的に参加し、大規模映像データへの意味索引付けに関する最先端研究を推進している。
目次

マルチメディア認識技術について

マルチメディア認識技術とは具体的にどのような技術なのでしょうか?私たちの日常生活ではどのように活用されていますか?

植木准教授による解説

マルチメディア認識は、画像、映像、音声、音楽、自然言語といった情報を対象に、それらの内容を理解・分析する技術です。私自身は画像・映像の認識技術を中心に研究していますが、画像・映像をテキストで検索したり、画像・映像の説明文を生成したりするなど、自然言語処理とも密接に関わっています。また近年では、触覚や匂い、味、生体信号など、これまで扱いが難しかった情報も対象にする試みが進んでいます。

こうした技術は、映像や音声、テキストなどを対象とした検索や分類、レコメンドといった情報アクセスの高度化にとどまらず、監視カメラ映像からの異常行動の検知、災害時の状況把握支援、高齢者見守りシステムなど、社会の安心・安全を支える多くの場面で活用されています。

ディープラーニングが画像・映像認識にもたらした変化

ディープラーニングが画像・映像認識にもたらした変化について、教えていただけますか?

植木准教授による解説

ディープラーニングが注目を集め始めたのは、2010年頃のことです。それ以前は、画像中に何が写っているかを認識するのは非常に難しく、画像処理と機械学習を駆使するなどの工夫が必要でした。しかし現在では、ディープラーニングを用いて多くのものが認識できるようになりました。たとえば、スマートフォンのカメラをかざすと写っているものが何かを表示してくれたり、海外旅行中に見かけた読めない看板やメニューの文字をリアルタイムで翻訳してくれたりと、日常生活の中で使われる場面が増えています。今やディープラーニングの技術は、私たちの生活のさまざまな場面に自然と溶け込み、気づかぬうちに利用されています。

加えて、近年は大規模データセットや豊富な計算資源が整備されてきたことで、多少のプログラミング知識があれば、個人でも自分の目的に応じた認識モデルを構築・学習させることができるようになっています。この「誰でも使えるようになった」という点は、技術の進歩だけでなく、社会に与えるインパクトという意味でも非常に大きな転換点だったと感じています。

研究室の技術的な強みについて

先生の研究室では、「大量映像データベースからの検索技術」で国際競争で世界1位を達成されたそうですが、どのような技術的な強みがあったのでしょうか?

植木准教授による解説

もちろん、技術そのものを高めることは非常に重要ですが、国際コンペティションのような場では、それ以上に「どう取り組むか」という戦略や姿勢が成果を大きく左右すると思っています。限られた時間、人員、計算機資源の中で、どう配分し、どこに重点を置くかを判断する総合的なマネジメント力が求められると考えています。技術的な面では、最新の研究動向をいち早く把握し、使えそうな技術を素早くかつ柔軟に取り入れてシステムに組み込み、評価を繰り返すことで、基盤となる技術の精度が大幅に向上しました。

監視カメラ映像から人物の行動を推定する技術について

監視カメラ映像から人物の行動を推定する技術は、どのようなアルゴリズムで実現されているのでしょうか?

植木准教授による解説

従来の技術では、人物の行動や動作を撮影した大規模な映像データセットを収集し、それを使って学習する手法が用いられてきましたが、異常行動のようにデータの収集が難しい分野では、さまざまな工夫が求められます。私の研究室で培ったテキストからの映像検索技術を応用し、近年発展が著しい大規模言語モデル(LLM)や画像・映像の生成モデルを用いて、実データを補完するなどの工夫を通じて、これを実現しています。

今後の画像・映像認識技術について

これから画像・映像認識技術はどのような方向に進化していくとお考えでしょうか?また、社会にどのような変革をもたらすと期待されていますか?

植木准教授による解説

2010年頃のディープラーニングブーム、2020年頃からの生成AIブームと、約10年単位で技術に大きな変革が起きてきました。今後も、こうした流れの中で次のブレイクスルーが訪れると信じています。

AIによって人の仕事が奪われるといったネガティブな見方もありますが、私はむしろ、技術が人間の心や生活をより豊かにする方向へと進化してほしいと考えています。人とAIが共存していくことはもちろんですが、それに加えて、人の感情や価値観を理解し、人と人とのつながりを円滑にする技術にも注目しています。たとえば、「どうすれば人は幸せを感じられるのか」といった問いに向き合い、人の感情や心理状態を理解し、それを支えるような認識技術にも関心をもっています。そうした、人間の“こころ”に寄り添うAIの進化にこそ、大きな可能性があると期待しています。私自身も、そうした方向性に強い関心をもっており、人の内面をより深く理解し、心や生活が豊かになるような技術の研究にも取り組んでいきたいと考えています。

目次