old school magic

機械学習に関する備忘録です。

機械学習

回帰モデルにおけるL1正則化とL2正則化の効果

概要 回帰モデルとは、与えられた入力を用いて目標変数を予測するモデルです。 回帰モデルでは過学習を防ぐため、誤差関数(二乗誤差関数など)に次の式で表される正則化項を加えて最小化します。この形の正則化項を用いる回帰をブリッジ回帰と呼びます。 特に…

MacでPythonの機械学習環境構築(2015年2月版)

概要 MacでPythonの管理と機械学習環境構築の備忘録です。 2015年2月版です。簡単にまとめるとこんな感じです。 パッケージ管理システム : homebrew Pythonの導入・管理 : pyenv 機械学習ライブラリの構築 : Anaconda 前回は結構めんどくさかったのですが、…

ディリクレ過程ガウス混合モデルの Python 実装(「続・わかりやすいパターン認識」ノート)

続・わかりやすいパターン認識―教師なし学習入門―作者: 石井健一郎,上田修功出版社/メーカー: オーム社発売日: 2014/08/26メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る「続・わかりやすいパターン認識」12章のディリクレ過程ガウス混…

【書評】続・わかりやすいパターン認識 -教師なし学習入門-

続・わかりやすいパターン認識―教師なし学習入門―作者: 石井健一郎,上田修功出版社/メーカー: オーム社発売日: 2014/08/26メディア: 単行本(ソフトカバー)この商品を含むブログ (2件) を見る 概要 「続・わかりやすいパターン認識 -教師なし学習入門-」の…

機械学習を初めて勉強する人におすすめの入門書

概要 私が機械学習の勉強を始めた頃、何から手を付ければ良いのかよく分からず、とても悩んだ覚えがあります。同じような悩みを抱えている方の参考になればと思い、自分が勉強していった方法を記事にしたいと思います。目標としては、機械学習全般について、…

「パターン認識と機械学習」への遠回り その7 「データ解析のための統計モデリング入門」

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: 単行本購入: 16人 クリック: 163回この商品を含むブログ (21件) を見る機械学習…

PyStanでMCMC入門

概要 PyStan は Stan というMCMC計算用言語の Python インターフェイスです。Stan http://mc-stan.org/PyStan http://pystan.readthedocs.org/en/latest/index.htmlMCMCを計算できるソフトはいくつかあるのですが、Stan は C++で実装されているため高速 最近…

PyMC3でMCMC入門(2)

概要 前回は、PyMC2 向けのチュートリアルを PyMC3 に書き換えることでPyMC3 に入門してみました。 今回は、PyMC3 のチュートリアルを見て、実際にモデルを記述する時どういった流れになるか見てみようと思います。 チュートリアル PyMC3 チュートリアル htt…

PyMC3でMCMC入門(1)

概要 先日、Tokyo.scipy というイベントがありました。Tokyo.scipyPython で科学技術計算を用いる方々の勉強会だそうです。 私は参加していないのですが、PyMC に関するセッションがあったそうです。 PyMCがあれば,ベイズ推定でもう泣いたりなんかしない サ…

LDAで日本語PDF分析

概要 最近、LDAを(pythonで)実装する機会がありました。 サンプリングを用いる実装だったので、Python等のスクリプト言語だとどうしても計算時間が問題になってしまいます(特に大規模なデータに対して)。 せっかくなのでコンパイル系の言語であるJavaで実装…

Pythonで主成分分析

概要 主成分分析(Principal Component Analysis, PCA)とは、 データの無相関化 データの次元の削減 を行う手法です。 簡単に言うと、データを分析しやすいように再構成し、可能なら次元を下げることです。なぜ次元を削減する必要があるかと言うと、機械学習…

Python3でPyMCのインストール

概要 PyMCはPythonのベイズ統計用ライブラリです。特にMCMCに重点を置いています。 Python3にPyMCを導入するのに割りと手こずったのでメモします。 参考になれば幸いです。 インストールの前準備 今回はPyMC version 3を試します。(まだalpha版です。) Pytho…

Pythonで一般化線形モデル

概要 統計の勉強の一環で、最近はこの本を読んでます。かなり分かりやすいです。データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)作者: 久保拓弥出版社/メーカー: 岩波書店発売日: 2012/05/19メディア: …

MacでPythonの機械学習環境構築(2014年5月版)

この記事は古くなっています。 最新版の記事はこちらになります。 MacでPythonの機械学習環境構築(2015年2月版) - old school magic MacでPythonの機械学習環境構築(2015年2月版) - old school magic 概要 MacでPythonの管理と環境構築の備忘録です。 色々試…

「パターン認識と機械学習」への遠回り 幕間 「統計を学ぶ際に心がけること」

統計学の目的の一つとして、「確率分布を推測する」というものがあります。 その確率分布を予測する方法として、最尤推定やベイズ推定などがあります。統計を学んでいると、 対数尤度を最大化すると良い予測になる 対数周辺尤度*1を最大化すると良い予測にな…

「パターン認識と機械学習」への遠回り その6 「図解・ベイズ統計「超」入門」

その1 フリーソフトで作る音声認識システム その2 自然言語処理のための機械学習入門 その3 はじめてのパターン認識 その4 キーポイント線形代数 幕間 機械学習と統計学 その5 キーポイント確率・統計図解・ベイズ統計「超」入門 あいまいなデータから未来を…

「パターン認識と機械学習」への遠回り その5 「キーポイント確率・統計」

その1 フリーソフトで作る音声認識システム その2 自然言語処理のための機械学習入門 その3 はじめてのパターン認識 その4 キーポイント線形代数 幕間 機械学習と統計学キーポイント確率統計 (理工系数学のキーポイント 6)作者: 和達三樹,十河清出版社/メー…

「パターン認識と機械学習」への遠回り 幕間 「機械学習と統計学」

機械学習の勉強を始めた当初、統計学を学ぶ必要性をあまり感じていませんでした。 というのも、統計学自体をほとんど知らなかったので、統計学についてちょっと変なイメージを持っていたからだと思います。しかし、機械学習を勉強するにつれ、統計学と機械学…

「パターン認識と機械学習」への遠回り その4 「キーポイント線形代数」

その1 フリーソフトで作る音声認識システム その2 自然言語処理のための機械学習入門 その3 はじめてのパターン認識キーポイント線形代数 (理工系数学のキーポイント 2)作者: 薩摩順吉,四ツ谷晶二出版社/メーカー: 岩波書店発売日: 1992/10/22メディア: 単行…

変分ベイズについての資料まとめ(随時更新)

変分ベイズとは? 平均場近似、変分推論、ベイズ学習など様々な呼び方があります。フリーで読める解説だとこれが一番わかりやすかったです。 自然言語処理のための変分ベイズ法 http://www.ism.ac.jp/~daichi/paper/vb-nlp-tutorial.pdfCiNiiユーザならこのシ…

Windows/Macで英語論文(pdf)を読む時に便利なこと

私は英語が苦手です。勉強も極力日本語文献でしています。 しかし、どうしても英語論文を読まなければいけないときが多々あります。理系の英語論文を読む時、一番やっかいに思うのは「専門用語が分からない」ことです。 いちいちコピペして辞書引くのが大変…

ディリクレ過程混合モデルへの変分推論適用について

この記事について ノンパラメトリックベイズは分かりやすいチュートリアルは良く見かけるのですが、そこから一歩進んだ(日本語の)資料に行きつけなかったので、色々と論文読んで簡単に(数式を出さないで)まとめてみます。 ぶっちゃけるとCollapsed Variation…

「パターン認識と機械学習」に挑戦 その1 ベイズ理論あたり(8章から11章まで)

前回までいくつか機械学習の入門書を読み、今なら多少読めるのではとPRMLに挑んでみました。 目標はPRML/course - 機械学習の「朱鷺の杜Wiki」で紹介されてる中間(修士)レベルです。どこから読もうかと考えたのですが、上巻は以前読ん(で死ん)だので下巻、そ…

「パターン認識と機械学習」への遠回り その3 「はじめてのパターン認識」

その1 フリーソフトで作る音声認識システム その2 自然言語処理のための機械学習入門前回までは音声認識だったり自然言語処理だったりとだいぶ範囲を狭めた本を読んで来ましたが、今回はパターン認識自体への入門書を読みます。はじめてのパターン認識作者: …

「パターン認識と機械学習」への遠回り その2 「自然言語処理のための機械学習入門」

その1 フリーソフトで作る音声認識システム前回入門書への入門書まで読み終えたので、今回は入門書を読みます。言語処理のための機械学習入門 (自然言語処理シリーズ)作者: 高村大也,奥村学出版社/メーカー: コロナ社発売日: 2010/07メディア: 単行本購入: 1…

「パターン認識と機械学習」への遠回り その1 「フリーソフトでつくる音声認識システム」

機械学習の入門書として、代表的なのが「パターン認識と機械学習」という本です(通称PRML)。 先日、上巻を読み終わりました。 僕には少し早かったみたいです。。。 数式を追うのに必死になって、機械学習の概要がつかめなかったのが敗因かなーと思います。と…

Javaで機械学習の勉強は可能なのか?

結論から言うと「可能ではあるけどやめたほうがいい」って感じです。僕はJavaが好きです。eclipseの支援は素晴らしいです。研究やってると過去のコードが動かないことが結構あるので、「write once, run anywhere」の精神が大好きです。いちいち例外投げると…

ウィシャート分布からのサンプリング

探せばあるものですね。 Wishart Distributions and Inverse-Wishart Sampling気が向いたらJavaで実装しようと思います。

Infinite Gaussian Mixture Model (IGMM) の情報まとめ

Dirichlet Process Gaussian Mixture Model (DPGMM)とも。 Dirichlet Process Mixture Model が一番ググった時に引っかかりやすいかも。 この記事について 最近?流行りのノンパラメトリックベイズの一つで、ガウス混合モデルのノンパラメトリック版です。 …

機械学習とプログラミング

機械学習、プログラミングの初心者です。 備忘録も兼ねて少しずつ書けていけたらと思います。 機械学習/Java/Scala/R/Python