読者です 読者をやめる 読者になる 読者になる

LIFULL Creators Blog

「株式会社LIFULL(ライフル)」の社員によるブログです。

人工知能学会全国大会2016 画像解析寄りの深層学習関連発表のまとめ

こんにちは。おうちハッカー@リッテルラボラトリーの石田です。

2016年6月6日~9日に開催された第30回人工知能学会全国大会に行ってきました。私は画像系及び深層学習に興味があるので、特に画像系と深層学習系セッションを見て回りました。

f:id:nextdeveloper:20160613194912p:plain

そこで主に自分が見たセッションを元に、今年の人工知能学会の画像に関わる深層学習の発表をまとめてみました。
私が見た・読んだ範囲で、「各分野にCNNを適用した研究」「画像系深層学習の理論的な研究」「画像ではないが気になった深層学習の研究 」に分けて紹介します。

自分で実際に見た発表については、おすすめ度をつけています。個人の主観によるものですので、弊社の見解とは関係がありません。
ではどうぞ。

各分野にCNNを適用した研究

ここでは、画像系で大きな成果を上げているCNN(畳み込みニューラルネットワーク)を、各分野の画像解析に適用してみた研究を紹介します。

画像特徴量を利用したユーザプロファイルの拡張とローカルショップ推薦への応用

https://kaigi.org/jsai/webprogram/2016/pdf/156.pdf
おすすめ度:★☆☆

基本はSIFT特徴量をBoVWに変換して、ユーザーの訪問場所の画像から、特徴量の近しいレストラン等を推薦する研究。論文中では述べられてませんが、発表ではCNNを用いて、ランチ、ディナー、ナイトライフなどを分類して利用していました。
f:id:nextdeveloper:20160613170053p:plain

深層学習を用いたファッションコーディネート因子の抽出

https://kaigi.org/jsai/webprogram/2016/pdf/101.pdf
おすすめ度:★★☆

服の種類を判定、ユーザーへの推薦を目的とする研究。 従来はトップス、スカートなどのの上位カテゴリと、カーディガン、ニットなどのサブカテゴリを同時にCNNで推定していましたが、提案手法のLayered CNNではトップカテゴリの判定器→サブカテゴリの判定器の順に2層構造の判定器で構成されており、従来より精度が向上したとのことです。

その他の知見としては、模様などのスペクトラムは、別の特徴量を使った方法が有効なこと、画像の前処理が重要なことが述べられていました。
f:id:nextdeveloper:20160613170315p:plain

Deep Learning技術をベースとした異常画像検出

https://kaigi.org/jsai/webprogram/2016/pdf/664.pdf
おすすめ度:★★★

SUUMOの戸建の物件画像について、2種類の異常検知を行った研究。人が写り込んでいるような画像を省くため、物体検知と分類を同時に行う手法であるFaster R-CNNで人を検出していました。もう一つは、CNNの中間層の特徴量をX-meansでクラスタリングして、建築中や土地のみの異常画像のクラスタの生成に成功しています。
f:id:nextdeveloper:20160613170437p:plain
f:id:nextdeveloper:20160613170503p:plain

同業の不動産情報サイト関連研究として、興味深く聞かせてもらいました。

地球観測衛星画像上の地物自動認識

https://kaigi.org/jsai/webprogram/2016/pdf/1019.pdf
おすすめ度:★★☆

LANDSAT衛星写真からCNNでソーラーパネル設置領域を判別する研究。教師データが少ないが、RGBに加え赤外線などのバンドを入力に入れることで、精度向上に大いに寄与していることを示していました。パラメータ調整にはガウス過程を用いたベイズ最適化を用いているそうです。
f:id:nextdeveloper:20160613170615p:plain

ディープラーニングを適用した衛星画像からの土地被覆分類手法の評価

https://kaigi.org/jsai/webprogram/2016/pdf/881.pdf
おすすめ度:★★☆

前の研究と同じく衛星画像を用いて、都市、森、水源などに分類する研究。 ベイス推定を利用した自動パラメータ調整を利用。精度は7割程度。既にある分類基準を元に、CNNのモデルのラベルをどう定義するかが精度に大きく影響するようでした。
f:id:nextdeveloper:20160613170759p:plain

深層学習を用いた SNS プロフィール画像から䛾投稿者属性推定

https://kaigi.org/jsai/webprogram/2016/pdf/778.pdf
おすすめ度:見てません

CNNでFacebookのプロフィール画像から、性別、年齢、性格を推定する研究。顔画像をHaar-like検出器+adaBoostによる顔領域検出で切り抜いた画像の精度が向上しているようです。
f:id:nextdeveloper:20160613171035p:plain

実環境におけるロボットの物体認識

https://kaigi.org/jsai/webprogram/2016/pdf/363.pdf
おすすめ度:★☆☆

Pepperなどのロボットのためのリアルタイム周辺環境認識のために、BINGで物体候補領域を検出、CNNのCaffeのリファレンスモデルで物体種別を分類する研究。Intel RealSenseのデプスカメラを利用して、検出したものの距離を計測できるようにしていました。 現状ではGPUにTitan X使用で、処理に一枚あたり1秒かかるそうです。
f:id:nextdeveloper:20160613171230p:plain

畳み込みニューラルネットワークを用いた微小眼球運動の検出

https://kaigi.org/jsai/webprogram/2016/pdf/988.pdf
おすすめ度:★★☆

人の注意状態を表す眼球のマイクロサッカード(MSC)をロバストに検出するために、眼球の位置を入力としてFaster R-CNNを参考した手法を使った研究。特徴抽出部と識別部の2段構成で、特徴抽出部は2層畳み込みで特徴波形を抽出、識別部はConvMLPを結合したモデルを利用してMSCの確率を推定しています。
f:id:nextdeveloper:20160613171410p:plainf:id:nextdeveloper:20160613171547p:plain

Convolutional Neural Networkによる写真と手描きスケッチの認識

https://kaigi.org/jsai/webprogram/2016/pdf/1056.pdf
おすすめ度:★★☆

手書きスケッチを描いて類似画像を検索するためにCNN学習させたいが、大量のデータセットの作成が困難なため、画像やイラストを加工した画像を用い学習を行わせる研究。画像とスケッチが混ざったテストデータでも高精度に20種類の動物を分類できています。
f:id:nextdeveloper:20160613171648p:plain

畳み込みニューラルネットワークを用いた表情表現の獲得

https://kaigi.org/jsai/webprogram/2016/pdf/873.pdf
おすすめ度:★☆☆

顔の表情データセットをCNNで分類する研究。表情の専門知識を用いて特徴量を設計して作られた既存研究に近い精度が出ています。
f:id:nextdeveloper:20160613172106p:plain

画像系深層学習の理論的な研究

畳込みニューラルネットワークのための新しい半教師あり学習法

https://kaigi.org/jsai/webprogram/2016/pdf/893.pdf
おすすめ度:★★★

CNNには大量の正解ラベル付きの正解データが必要だが、最初にラベルなしの画像データで教師なし学習をし、その後教師あり学習に切り替えるという半教師あり学習を行うと、学習速度が向上するという研究。

教師なし学習時は、教師ありの10倍ほどの画像を用意し、正解を最もスコアの高かったユニットのラベルとし、正解を確度の低いものとして扱って学習させています。
f:id:nextdeveloper:20160613172418p:plain

逆畳み込みニューラルネットワークを用いた輪郭検出

https://kaigi.org/jsai/webprogram/2016/pdf/763.pdf
おすすめ度:★★☆

輪郭抽出を行うHEDという手法について、一部に逆畳み込みネットワークを使うことでよりきれいな輪郭抽出を試みる研究。

HEDはCNNの全結合層が存在しないFully Convolutional Network(FCN)を用い、プーリングで小さくした特徴量を画像サイズまで拡大するときに線形補完を使っていたが、代わりに逆畳み込みを導入してみたところ、従来手法より若干きれいな輪郭の抽出ができていました。
f:id:nextdeveloper:20160613172826p:plain

深層学習における敵対的ネットワークと注視を用いた画像生成の試み

https://kaigi.org/jsai/webprogram/2016/pdf/811.pdf
おすすめ度:★★☆

深層学習による画像生成の現状の問題点として、大きな画像が生成できず、細部が曖昧になってしまう点があります。
そこで注視メカニズムを使い、部分画像を複数回に渡って学習・生成し、また敵対的ネットワークを導入し画素単位での誤差の修正を試みる研究。
MNISTという手書き文字データセットで実験を行っています。

f:id:nextdeveloper:20160613173511p:plain

【補足】敵対性ネットワークについては、昨年末話題になった、敵対性ネットワークによる画像生成の記事を見ると、敵対性ネットワークの概念について理解できると思います。
Chainerで顔イラストの自動生成 - Qiita

深層学習における敵対的ネットワークによるラベル推定と半教師あり学習

https://kaigi.org/jsai/webprogram/2016/pdf/829.pdf
おすすめ度:★★★★

半教師あり学習で高精度な分類機を作るため、敵対的自己符号化器を用いた研究。符号化器が獲得する潜在変数として、従来のzに加え、yを導入し、一方にコンテンツ識別に必要な情報、もう一方にその他のスタイル情報を敵対性ネットを用いて学習させることで、コンテンツとスタイルを分離することができ、精度向上を図っています。
スタイルとコンテンツが分離できたことで、それぞれを別に指定して画像生成が可能になりました。例えば、ポップ風の「3」の画像といった指定で生成できそうです。

つまりこの研究では、半教師あり学習の精度向上と、画像生成技術における生成画像のコントロールの2つをもたらしていると言えます。

f:id:nextdeveloper:20160613173819p:plain

画像以外の深層学習の研究

マルチエージェントによるDeep Learningの提案

https://kaigi.org/jsai/webprogram/2016/pdf/953.pdf
おすすめ度:★★★

現状の深層学習では、何層にするか、各層のユニットの数をいくつにするか決めて実験してうまくいったものを使っていますが、将来的に膨大な作業になりそうです。
そこで各ユニットをエージェントにしてしまい、各ユニットが局所的な情報のみを持って独立して行動することで、ネットワークを学習中に自動で変わっていく手法を提案している研究。SDAというデータの一部を隠して再構成させる手法がありますが、この手法とほぼ同等の性能を持つマルチエージェントによる深層学習を実現しています。

Deep Neural Network を用いた株式売買戦略の構築

https://kaigi.org/jsai/webprogram/2016/pdf/975.pdf おすすめ度:★★★

既存研究では、株価の予測がされていますが、どのタイミングでどの量を売買するかまで議論されていません。そこで深層学習を用いて売買タイミング、取引量まで提案するシステムを構築する研究。
テクニカル指標であるトレンド系とオシレータ系のモデルをそれぞれ作成、過去の株価データをもとに学習させたところ、両モデルの複合型が高い成果を残しています。
また、その時のトレンドによって、トレンド系とオシレータ系のどちらが有効か異なるため、直近の精度により信頼度を設定、信頼度によって取引量を決めることで、さらに成果が向上しています。

f:id:nextdeveloper:20160613184106p:plain

深層行動認識モデルのユーザ特化圧縮

https://kaigi.org/jsai/webprogram/2016/pdf/593.pdf
おすすめ度:★★★

IoTにおけるセンサベース行動認識において、学習済みモデルをユーザーに特化させることでモデルの圧縮を試みる研究。

センサ情報を生で送るのはプライバシー的に怖いので、解析済みのデータのみを送りたいところです。しかし大量に設置するセンサ側やスマホのメモリ容量は限られ、学習済みモデルをそのまま置き辛いです。
そこで蒸留という方法でそのユーザーにとって不要なユニットを削除することで、モデルの圧縮を行っています。教師モデルと生徒モデルを使った提案手法により、30%まで圧縮しても精度が落ちないことが示されています。

f:id:nextdeveloper:20160613185337p:plain

感想的なもの

人工知能学会への参加は2回目でしたが、去年に比べてディープラーニング関連の研究が激増していました。 特に各分野にCNNを適用した例が非常に多く、広い分野で良い成果を残していました。CNNを適用する際のテクニックも多く学べました。

また画像生成技術が昨年末に話題になったり、画風変換アルゴリズムなどが注目され、個人的に画像の生成に興味を持っていました。絵を全くかけない自分にとって、アルゴリズムで絵を作れるというのは、表現手段が増えてとても楽しいのもです。

私自身も、DCGANで間取りを生成させたり、画風変換アルゴリズムでいろんな「だが断る」を作ったりして遊んでいますが、画像が荒かったり、特徴抽出がうまくできなかったりして、まだまだな部分があります。
今回の人工知能学会でも、高精度な画像生成や特徴抽出の改善などの研究があり、どんどん改善されていくのが楽しみになりました。

理論的な研究も非常に興味深く、教師データ収集の手間を減らす、モデルを圧縮する、モデルの組み合わせの試行を無くすなど、現状の深層学習における問題点を本質的に解決する研究は凄いと思いました。

本当に深層学習周りの技術の進歩は速すぎて、驚くべき成果が多いので、これからも積極的に情報を収集していこうと思います。