ホーム » 機械学習 » ベイジアン入門　ベイズ推定

ベイジアン入門　ベイズ推定

投稿者: junko.hosoda in 機械学習, 深層学習投稿日: 2019-12-12

こんにちは。

前回、MAP推定までやりました。

尤度からMAP推定まで

しかしプロットもコードも書かなかったのでMAP推定をプロットするところからはじめます。復習がてらにね

この青いプロットは今回のテーマであるベイズ推定です。まぁそれは置いておいて、「尤度x事前分布」の最大化がMAP推定でした。プロットすると上図のように山が最も高くなる点になります。

MAP推定とベイズ推定の違いを簡単に

MAP推定は右辺の分子の最大化でした。一方でベイズ推定とは分母を切り捨てずちゃんと計算して左辺をちゃんと導出します。（なぜ切り捨ててよかったというと $P(D)$ はパラメータ $\theta$ に依存しないからです。）

ということはベイズの方が難しいんですよ。（ちなみに最尤法、MAP推定は値を推定するので点推定とも呼ばれます。）

なぜベイズ推定したいのか？

これはあくまで僕なりの理解と見解なのでそれを踏まえて聞いて欲しいです。

前述通りMAP推定よりベイズ推定の方が難しいです。理由は分母の計算があるからです。この計算は積分の形になり、さらにいうと計算できなくて困っているくらいなのです（MCMCとかで対応）そこまでしてベイズ推定するメリットはなんなのか？なぜMAP推定ではダメなのか？

僕の理解だとまず、MAPがダメというわけではないです。ベイズ推定の結果がMAP推定と同値的なことになることはあります。

例えばベイズ推定後のパラメータの分布が上のようになったとしましょう。するとベイズ推定最大の利点の一つは「平均をとることもできる」という点だと思っています。説明すると、MAP推定のみの場合は得られる情報は真ん中の山の頂点を指す点、つまり $\theta=10$ のみです。

一方で、ベイズ推定をすると事後分布の全体像がわかるため、例えば図においていい山が３つあるので平均をとって

$\theta=\frac{6+10+17}{3}=11$

のようにパラメータをより主観的に微調整できるのです。なぜ主観的という言葉を使ったかというとそもそもベイズの根幹に

直感・主観

を反映させるというアイデアがあるからです。

ベイズ推定

最も簡単なのでコイン投げを例に取りましょう。なぜ簡単かというとパラメータが一つで済むからです。というのは表が出る確率を $\theta$ とすると自動的に裏が出る確率が $1-\theta$ ということです。

加えて計算も楽なのです。（僕は数学が苦手なので複雑な理論とかはできない。）ここではパラメータ $\theta$ の分布をベイズ推定で求めると同時に、その分布の変化を可視化することで理解を深めます。

パラメータの確率密度関数を $f_n$ 、コイン投げの結果 $x_n$ を $H(head)$ 、 $T(tale)$ で表し、確率変数を $c$ と表すことにします。

例えば

$f_n(\theta) = f_n(\theta|c=H)$

は表が出た時のベイズ推定で得た分布ということです。これを踏まえると $n+1$ 回目の更新では次のようになります。

$f_{n+1}(\theta) = f_{n+1}(\theta|c=x_n) = \frac{p(c=x_n|\theta) f_n(\theta)}{p(c=x_n)}$

ただし

$p(c=x_n) = \int_0^1 p(c=x_n|\theta)f_n(\theta) d\theta$

では事前分布を決めましょう。これは上式の $f_1$ に相当します。事前分布とはパラメータに仮定する分布でした。今回のパラメータ $\theta$ はコインが表をだす確率です。僕なら事前分布に一様分布を仮定します。なぜなら表も裏も同じくらい出るだろうと思っているからです。

え？一様分布はいや？なら例えば次のような例を考えてみましょう。コイン持っていた人間が表がめっちゃ好きな人間なら事前分布は右に偏ったものになりますよね。つまり一様分布とはかけ離れ $\theta=1$ 付近で最大値をとるようないわばデルタ分布とかを仮定することになります。しかし、話がややこしくなるんです。なので一様分布で許してください。

つまり

$f_1(\theta) = 1$

前回の記事を読んでくれた方は共役事前分布は？と思ったかもしれないがいったん忘れてください。なぜならとことん話が簡単になるからですよ。

残るは尤度、上式の $p(c=x_n)$ のみです。尤度とはなんだった？それは試行の結果をパラメータを用いて表現したモデルでした

つまり、 $x_1=H$ だったとするとその事象に対する尤度は

$p(c=H|\theta) = \theta$

となります、実にシンプルだろ？もし二項分布とかでやると計算がうわああってなります。（サイコロのようによりマルチなものをやろうとするとディリクレ分布とかが絡んできて、うわあああってなります）

ではベイズ推定してみよう。前述通り $x_1=H$ というデータが得られたとします。まずは分母つまり次の積分を計算しましょう。

$p(c=x_1) = \int_0^1 p(c=H|\theta)f_n(\theta) d\theta$