研究紹介

機械は,自分自身の「知識」を活用して人間と自由にコミュニケーションを取ったり,自分の「能力」で絵か曲など様々なモノを創出したりすることができれば,この世界がどれほどおもしろいものでしょう.しかし,これら技術の実現は現代科学からの考え方と大きな違いがあり,非常にチャレンジ的なことです.どうして,機械には,「知識」を学ぶことや「能力」を身につけることがたいへん難しいのでしょうか.これは,現代科学と機械の生い立ちに関係しているようです.

 現代科学の方法では事象を,人間から客観的に観察,記述,計算,解析,さらに科学的知見の発見に至ることが一般的です.一方,機器は,知識を獲得したり,能力を身につけたりすることが,現代科学の方法とは全く逆となる ー 情報を,機器から主観的総合化して知識化し,それを能動的に連想・活用する能力が必要不可欠です.それで,知覚した情報から知識を「学習」して,独立で「思考」したり状況に応じた「行動」をしたりすること,絵や曲などのモノを自由に「創造」したりすること,これらのメカニズムをプログラムで解明しながら,パソコンでモデル化するのは,難しいものです.

 ところで,学習・理解・創造等の人間能力を機械上で実現することはどうして必要でしょうか.人間と人間とのコミュニケーションには,もちろん神経などの作用がありますが,最も重要なのは,「こころ」の作用と考えられます.人間の知的能力を機械で実現すると,冷たい金物に暖かい「こころ」を植え付けることにします.それで,機械からあたたかいサポートや手厚いサービスを提供してもらえます.このことは,人間と機械が調和を保ちながら共存するための核心技術ですから,近年,関連研究が分野・業種を超えてますます重視され技術導入の加速化も進んでいます.

 そこで人間の「こころ」を機械に植え付けるためには,どのような学問が必要でしょうか.一般的には,こころの問題として意味を理解するための認知科学,視・聴・感覚・認知,創造能力などのメカニズムを解析するための数学,コンピューターで実現するための工学といった幅広い知識が必要とされます.それらを包括的統合した人工知能(AI)技術は,注目を浴びています.AIは,機械学習手法によりデータから人間では気付かないパターンを見つけ出し,現象を「知識」(モデル)化する能力を持っており,メソッドが改善されたり一定条件下で追加データに基づいて学習したりすることにより,能力をさらに増強してくれます.このような技術を用いては,機器が(人間の)知覚したデータを学習して人間と通じ合う「知識」を発見しながら,「知的能力」を身に付けることが可能になるわけです.最近,この方向に沿うものとして,人間の神経システムを模したディープラーニング(例えば,畳み込みニューラルネットワーク(CNN),生成ニューラルネットワーク(GAN)等)を初めとした技術がでてきました.人間の能力である理解・認識・創造,それらのメカリズムを解明し,パソコンに実行させることは,たいへん困難ですが,ますます多くの研究者が,この課題について熱心に挑戦していきます.

 当究室では,前述の課題について長期にわたって研究を積み重ねてきました.研究は,主として,ディープラーニング等の機械学習手法を用いて,膨大で複雑な構造を有する知覚データから,有用な情報や「知識」を学習,あるいは発見,生成,さらにそれらを活かすための音声処理,コンピュータービジョン,自然言語処理,パターン認識,データマイニングなどの要素技術及びその実社会課題への応用研究に取り込んでいます.

・具体的研究内容について以下のよう,一部のテーマ(発表したもののみ)を示されます

キーワード】ディープラーニング,畳み込みニューラルネットワーク,生成ニューラルネットワーク,attention,transformer,データサイエンス,知的ヘルスケア,コンピュータービジョン,音声処理

・コンピュータービジョン・画像処理,画像特徴表現・認識・セグメンテーションなど

画像CNN.png (polar-CNN・IEEE Trans. TMM, 2019)

 画像映像を対象とする研究ですが,畳み込みニューラルネットワーク(CNN),統計的モデリングによる画像の識別器,表現する特徴を提案し,画像から物体検出,認識と認証などの人工知能技術を研究しています.また,敵対的生成ニューラルネットワーク(GAN)などの新たな機械学習手法を利活用,画像情報の質改善,世の中ない有用な画像情報の生成といったコンピュータービジョン研究を行っています.


・音声処理,音質変換・会話理解・音声信号処理

音声.png    ( 新たな生成ニューラルネットワーク手法を用いた音質変換・Interspeech 2021)

 主にディープラーニング,特に敵対生成ニューラルネットワークを利用し,音声・対話を理解,質を改善する新たな音声処理技術を研究し,構音障がい者の話者性を保持し健常者と同様話せる支援システム等の福祉分野への活用をしています.


・情報検索・コンテンツ解析

検索.png

(画像検索・Proc. ACM ICMR 2016)

 IT端末(スマホ,PCなど)の急速な成長により,我々はかつてないほどの大規模かつ複雑で動的なデータに直面しています.このようなデータを適切に管理し,利用者が真に必要とする情報や有用な知識を獲得するための検索技術およびコンテンツ解析と,それらのサービスなどへの応用について研究しています.


・機械学習・大規模データ解析

ビッグデータ解析.png

(ソーシャルネットワーク解析・IEEE Trans. TMM, 2017)

 大規模かつ不均質で動的な情報から知識を獲得するための基盤技術となる確率モデルと統計的推定,深層生成モデルなどについて研究しています.

・その他研究

そのた.png (複数モダリティによる音源推定・Pattern Recognition, 2021)

 オブジェクトの運動ルート推定,物体追跡,音源推定,ディープラーニングによる車流・人流量の推定管理などの研究も取り扱っています.