ysaz (ImanazaS) blog

最近はデータ分析や機械学習が中心。たまに音楽や書評。

機械学習に関する、読んだ/読みかけの論文集

Deep Learningに関する無料のオンライン学習コンテンツ、fast.aiを受講して以来、理解ができるかどうかはさておき、重要な論文にも目を通すよう心がけています。

f:id:nami3373:20190521203215p:plain
出典:DeepLearning-Lec8-Notes

学生時代の専攻が化学系だった自分にとって、馴染みの薄いアルゴリズムの部分等は正直読み解くのが辛いですが、少しでもエッセンスを汲み取ることを意識しています。

論文の検索&管理に使っているのは、arXiv(最近「アーカイブ」と読むことを知った)とMendeley(こちらは「メンデレー」)の組み合わせ。
学生の頃の研究分野では、論文誌を購読していなければ論文の中身を読むことができなかったため、このように無料で大量の論文にいつでもどこでもアクセスできるというのは非常に便利です。

あとは、以下の記事を参考にして読むべき論文を探したり(更新が滞っているので、2016年以前の論文ばかりですが)。
github.com


ということで今回は、これまでに読んだ、あるいは読みかけの論文を通じて学んだことを記してみたいと思います。*1

画像系(CNN)

  • ImageNet classification with deep convolutional neural networks (2012), A. Krizhevsky et al.
    • 2012年のImageNet ILSVRCコンペで圧勝した、AlexNetに関する論文。
    • 活性化関数にReLU (Rectified Linear Unit) を用いたり、GPUを用いた演算処理を実施したり、当時としては画期的な技術が導入された。
    • 今日のAI、Deep Learningブームにつながるきっかけを作ったことから、非常に重要な論文と言える。
  • Very deep convolutional networks for large-scale image recognition (2014), K. Simonyan and A. Zisserman
    • AlexNetをより深くし改良されたVGG16、VGG19に関する論文。なお、VGGはオックスフォード大学の研究チーム、Visual Geometry Groupの頭文字。
    • 2014年のILSVRCにおいて2位という好成績をおさめた。1位はGoogLeNetであったが、モデルのアーキテクチャが比較的シンプルなので、VGGのほうがとっつきやすい印象。
    • レイヤーの数によってモデルの名称も使い分ける。16層(畳み込み13 + 全結合3)ならVGG16、19層(畳み込み16 + 全結合3)ならVGG19、といった具合。
    • 初期のfast.ai(2016年)では、KerasでVGG16を使ったモデルがベースケースとして用いられていた。
  • Deep residual learning for image recognition (2016), K. He et al.
    • Microsoftの研究チームによる、ResNetに関する論文。
    • 先のVGGと同様に、レイヤーの数によってResNet34、ResNet50と、モデルの呼称が異なる。

画像系(GAN)

  • Generative adversarial nets (2014), I. Goodfellow et al.
    • GAN (Generative Adversarial Networks、敵対的生成ネットワークと訳される) について書かれた論文。
    • 有名なDeep Learning*2の著者でもあるGoodfellowが本論文の著者。
    • generatorとdiscriminatorは、犯罪者とそれを取り締まる警察に例えられることが多い。
    • 犯罪者は本物に近い偽札を作り、警察がそれを見分ける、といったことが繰り返され、モデルの学習が進んでいく。
  • Unsupervised representation learning with deep convolutional generative adversarial networks (2015), A. Radford et al.
    • GANの登場から約1年後に発表された、DCGAN (Deep Convolutional GAN) に関する論文。
    • なお、この論文に限らずGANには多数の派生系が存在する*3
    • DCGANの特徴は、画像分類で用いられてきた畳み込み層を取り入れたこと。
    • Batch Normalization(各層でのデータ分布を正規化する手法)をgeneratorおよびdiscriminatorに適用したり、活性化関数にReLUを用いたりと、CNNの手法を応用していることが論文内で強調されている。
    • 結果として高解像度の画像をうまく扱うことに成功しており、本物と見分けの付かないレベルのベッドルーム画像を生成している。

余談

GANの技術は扱っていて面白いなと思うものの、私の発想力が乏しいがために、ビジネスでの活用機会があまり思い浮かびません。
芸術やデザイン、エンターテインメントの分野では重宝されるのでしょうか。

例えば、ラフスケッチさえ描けばGAN技術が高精度な画像に仕上げてくれるため、漫画家やアニメーターの作業が大幅に軽減される、とか、
損傷した芸術作品の復旧が容易になる、とか。

もう少し勉強しよう。

*1:形から入るタイプなので、気になったものにはとりあえずブックマークし、pdfファイルをダウンロードしておいて、あとで読む(結局読まない)スタイルになりがちなのが玉に瑕。

*2:

Deep Learning (Adaptive Computation and Machine Learning series)

Deep Learning (Adaptive Computation and Machine Learning series)

*3:GAN Zooというタイトルでまとめられており、現時点でGANの名前を含むモデルは500位上存在する模様