機械学習を初めて勉強する人におすすめの入門書
概要
私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。
目標としては、機械学習全般について、コンパクトなイメージを持てるようになることです。
そのためにも、簡単な本から始めて、少しずつ難しい本に挑戦して行きましょう。
入門書
何はともあれ、まずは機械学習のイメージを掴むことが大切です。
最初の一冊には、フリーソフトでつくる音声認識システムがおすすめします。
フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで
- 作者: 荒木雅弘
- 出版社/メーカー: 森北出版
- 発売日: 2007/10/17
- メディア: 単行本(ソフトカバー)
- 購入: 45人 クリック: 519回
- この商品を含むブログ (38件) を見る
この本は二部構成なのですが、第一部に機械学習についての簡潔なまとめがあり、これがとても良くまとまっています。(第二部が音声認識についてです。)
必要な数学レベルも高校程度なので、簡単に読めるのではないかと思います。
機械学習に関する簡単なイメージを持てたら、機械学習を全般的に扱っている入門書に進みましょう。
二冊目には、はじめてのパターン認識をおすすめします。
- 作者: 平井有三
- 出版社/メーカー: 森北出版
- 発売日: 2012/07/31
- メディア: 単行本(ソフトカバー)
- 購入: 1人 クリック: 7回
- この商品を含むブログ (2件) を見る
本書では機械学習に関するトピックを幅広く扱っていて、話の進み方や式の導出等、わかりやすく進んでいきます。一冊目よりは数学の知識が必要になって来ますので、もし数式で躓いたら数学書(後述)を随時参考すると良いと思います。
この本を使って勉強会をしたことがあるのですが、特に
の3つがつまずきやすいポイントのようです。私もここでつまずきました。
最尤推定について、まず尤度が良く分からない、という意見が多かったです。
尤度については次の記事が分かりやすいのではないかと思います。
尤度とは何者なのか? - MY ENIGMA
主成分分析は線形代数の分野なので、後述するキーポイント線形代数を読んでから勉強すると理解しやすいと思います。
EMアルゴリズムについては、東京工業大学の杉山先生の解説が分かりやすいのではないかと思います。
情報認識 - TOKYO TECH OCWの第10回です。
三冊目には、二冊目でカバーできなかったところを中心に解説してる本をオススメします。
データ解析のための統計モデリング入門は、見かけこそごついですが、とても説明が丁寧で分かりやすい本です。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (19件) を見る
「はじめてのパターン認識」でも確率モデルの話題があったように、機械学習の分野では統計学が大きな役割を果たします。本書ではそこを重点的に学びます。
この本で扱っているモデルを一般に「生成モデル」と呼びます。(「はじめてのパターン認識」で扱っていた、線形識別関数やSVM等は、「識別モデル」と呼ばれています。)
また、この本では主に「回帰」問題を、「はじめてのパターン認識」では主に「分類」問題を扱っています。*1そういった意味でバランスが取れているのではないかと思います。*2
この本を読むにあたって、確率や統計学の知識があったほうが読みやすいと思います。後述する統計関連の本(後述)を随時参考すると良いと思います。
数学の入門書
機械学習の分野では、微積や線形代数など、様々な数学が必要になって来ます。
数学については人によって事前の理解度が異なると思いますので、勉強中に数式に引っかかるようになって来たら、数学書を参照すると良いでしょう。
私のオススメはキーポイントシリーズです。
- 作者: 薩摩順吉,四ツ谷晶二
- 出版社/メーカー: 岩波書店
- 発売日: 1992/10/22
- メディア: 単行本
- 購入: 5人 クリック: 30回
- この商品を含むブログ (26件) を見る
- 作者: 川村清
- 出版社/メーカー: 岩波書店
- 発売日: 1996/03/28
- メディア: 単行本
- 購入: 1人 クリック: 3回
- この商品を含むブログ (2件) を見る
レビュー : 「パターン認識と機械学習」への遠回り その4 「キーポイント線形代数」 - old school magic
特にキーポイント線形代数は、数ある線形代数の入門書の中でも、イメージしやすいという点で良書だと思います。
また、本書もトピック毎によくまとまっていてオススメです。
- 作者: 永田靖
- 出版社/メーカー: 朝倉書店
- 発売日: 2005/04/01
- メディア: 単行本
- 購入: 23人 クリック: 398回
- この商品を含むブログ (23件) を見る
統計学の入門書
統計学は機械学習において重要なのですが、機械学習の本の中で統計学をしっかり説明するだけの余白はありません。
ならばいっそのこと、統計学そのものをしっかり学んでいきましょう。
次の二冊は、統計学の入門書の入門書、といったレベルですが、機械学習の本を理解する上で確実に役に立ちます。
- 作者: 和達三樹,十河清
- 出版社/メーカー: 岩波書店
- 発売日: 1993/02/22
- メディア: 単行本
- 購入: 1人 クリック: 38回
- この商品を含むブログ (5件) を見る
図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術 (サイエンス・アイ新書)
- 作者: 涌井貞美
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2013/12/18
- メディア: 新書
- この商品を含むブログ (10件) を見る
自然言語処理
自然言語処理においても、機械学習が用いられています。特に、離散値や系列データを扱うので、今まで読んできた本(連続値や非系列データ)とは違う視点から勉強ができると思います。
- 作者: 高村大也,奥村学
- 出版社/メーカー: コロナ社
- 発売日: 2010/07
- メディア: 単行本
- 購入: 13人 クリック: 235回
- この商品を含むブログ (39件) を見る
パターン認識と機械学習(通称PRML)
これまで学んできたことで、浅く広くではありますが、機械学習全般について学べたと思います。
ここから更に詳しいこと、またまだ学んでいないことを学ぶ時、PRMLが一つの選択肢になると思います。
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/04/05
- メディア: 単行本(ソフトカバー)
- 購入: 6人 クリック: 33回
- この商品を含むブログ (14件) を見る
- 作者: C.M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
- 出版社/メーカー: 丸善出版
- 発売日: 2012/02/29
- メディア: 単行本
- 購入: 6人 クリック: 14回
- この商品を含むブログを見る
PRMLはものすごく難しいですし、少なくとも最初に読む本ではありませんが、間違いなく良書です。特に、ベイズ理論を用いた機械学習という点においては、本書が最も良いのではないかと思います。
機械学習への理解を深めたい時、気長に読み進めると良いと思います。
PRMLは式変形の省略が多いので、次の副読本と一緒に読むことをおすすめします。
パターン認識と機械学習の学習―ベイズ理論に挫折しないための数学
- 作者: 光成滋生,竹迫良範
- 出版社/メーカー: 暗黒通信団
- 発売日: 2012/07
- メディア: 単行本
- 購入: 8人 クリック: 228回
- この商品を含むブログ (7件) を見る
同書はGithubでも公開されています。
https://github.com/herumi/prml
まとめ
機械学習は広大な分野です。最初から全てを理解しようとせず、各トピック毎にコンパクトなイメージを持ちつつ、知識を上塗りして行くのが良いと思います。
また、実際にプログラミングしてみるのも良いと思います。
RやPython、Matlab等が機械学習や統計において良く使われています。好きな言語で、ライブラリ等を用いて実際に機械学習してみるだけでも理解が深まります。また、アルゴリズムを実装してみるのも理解の助けになるでしょう。
多変量解析や時系列解析など、ここにある本だけではカバーしきれなかったトピックもたくさんあります。また、学習理論といった理論的な部分に挑戦してみるのもいいと思います。数学や統計の知識ももっとたくさん必要になってくるでしょう。正直私もここからが大変な気がしています。頑張ります。