研究紹介

機械が,自身の「知識」を活用して人間と自由にコミュニケーションを取ったり,自分の「能力」で絵や曲など様々な作品を創出したりすることができれば,この世界はどれほどおもしろくなるでしょう.しかし,これらの技術を実現するための考え方は,現代科学の基本的な考え方とは大きく異なり,非常にチャレンジングなことです.なぜ,機械には「知識」を学ぶことや「能力」を身につけることが,それほどまでに難しいのでしょうか.これは、現代科学と機械(という概念や技術)の生い立ちに関係しているようです.

 現代科学の方法では,事象を人間により客観的に観察,記述,計算,解析し,さらに科学的知見を発見することまでが一般的です.一方,機械が知識を獲得したり能力を身につけたりするためには,現代科学の方法とは全く異なるアプローチ,すなわち,情報を機械自身が主体的に統合して知識化し,そしてそれらを能動的に連想・活用する能力が不可欠です.そのため,知覚した情報から知識を「学習」し,自律的に「思考」したり状況に応じて「行動」したりする能力が必要とされます.これらの能力のメカニズムを解明し,プログラムとしてコンピュータ上にモデル化することは,難しい課題になります.

 ところで,学習・理解・創造等の人間能力を機械上で実現することはどうして必要でしょうか.人間と人間とのコミュニケーションには,もちろん神経などの作用がありますが,最も重要なのは,「こころ」の作用と考えられます.人間の知的能力を機械で実現すると,冷たい金物に暖かい「こころ」を植え付けることにします.それで,機械からあたたかいサポートや手厚いサービスを提供してもらえます.このことは,人間と機械が調和を保ちながら共存するための核心技術ですから,近年,関連研究が分野・業種を超えてますます重視され技術導入の加速化も進んでいます.

 そこで人間の「こころ」を機械に植え付けるためには,どのような学問が必要でしょうか.一般的には,こころの問題として意味を理解するための認知科学,視覚・聴覚・感覚・認知や創造能力などのメカニズムを解析するための数学,コンピュータで実現するための工学といった幅広い知識が必要とされます.それらを包括的に統合した人工知能(AI)技術は,注目を集めています.AIは,機械学習手法によりデータから人間では気付かないパターンを見つけ出し,現象を「知識」(モデル)として表現する能力を持っています.さらに,手法が改善されたり,一定条件下で追加データに基づいて学習を続けたりすること等のアプローチにより,その能力をさらに高めていくことができます,このような技術を用いることで,機械が(人間によって)知覚されたデータを学習し,人間と共通理解を得られる「知識」を発見しながら,「知的能力」を身に付けていくことが可能になると考えられます.最近,この方向性に沿ったものとして,人間の神経システムを模したディープラーニングをはじめとした技術の研究が進んでいます.人間の能力である理解・認識・創造,それらのメカニズムを解明し,コンピュータ上で再現することは,非常に困難ですが,ますます多くの研究者がこの課題に熱心に取り組んでいます.

 当究室では,前述の課題について長期にわたって研究を積み重ねてきました.研究は,主として,ディープラーニング等の機械学習手法を用いて,膨大で複雑な構造を有する知覚データから,有用な情報や「知識」を学習,あるいは発見,生成,さらにそれらを活かすための音声処理,コンピュータービジョン,自然言語処理,パターン認識,データマイニングなどの要素技術及びその実社会課題への応用研究に取り込んでいます.

・具体的研究内容について以下のよう,一部のテーマ(発表したもののみ)を示されます

キーワード】ディープラーニング,聴覚モデル,音声合成,音声認識,声質変換,画像処理,自然言語処理

・コンピュータービジョン・画像処理,画像特徴表現・認識・セグメンテーションなど

画像CNN.png (polar-CNN・IEEE Trans. TMM, 2019)

 画像映像を対象とする研究ですが,畳み込みニューラルネットワーク(CNN),統計的モデリングによる画像の識別器,表現する特徴を提案し,画像から物体検出,認識と認証などの人工知能技術を研究しています.また,敵対的生成ニューラルネットワーク(GAN)などの新たな機械学習手法を利活用,画像情報の質改善,世の中ない有用な画像情報の生成といったコンピュータービジョン研究を行っています.


・音声処理,音質変換・会話理解・音声信号処理

音声.png    ( 新たな生成ニューラルネットワーク手法を用いた音質変換・Interspeech 2021)

 主にディープラーニング,特に敵対生成ニューラルネットワークを利用し,音声・対話を理解,質を改善する新たな音声処理技術を研究し,構音障がい者の話者性を保持し健常者と同様話せる支援システム等の福祉分野への活用をしています.


・情報検索・コンテンツ解析

検索.png

(画像検索・Proc. ACM ICMR 2016)

 IT端末(スマホ,PCなど)の急速な成長により,我々はかつてないほどの大規模かつ複雑で動的なデータに直面しています.このようなデータを適切に管理し,利用者が真に必要とする情報や有用な知識を獲得するための検索技術およびコンテンツ解析と,それらのサービスなどへの応用について研究しています.


・機械学習・大規模データ解析

ビッグデータ解析.png

(ソーシャルネットワーク解析・IEEE Trans. TMM, 2017)

 大規模かつ不均質で動的な情報から知識を獲得するための基盤技術となる確率モデルと統計的推定,深層生成モデルなどについて研究しています.

・その他研究

そのた.png (複数モダリティによる音源推定・Pattern Recognition, 2021)

 オブジェクトの運動ルート推定,物体追跡,音源推定,ディープラーニングによる車流・人流量の推定管理などの研究も取り扱っています.