本日は機械学習の基本である尤度からパラメータ推定の基本であるMAP推定について話します。ベイズ推定やMCMCは次回以降になります。
ちなみに、KLや最小二乗法にまつわる話もします。
尤度と確率の違い
これ僕的にはそんなに気にしなくてもいいと思うんですよね、というのは僕が実際わかってないから、笑- 尤度(Likelihood)
観測した事象が起こる確率(パラメータがある) - 確率(Probability)
直感的な確率(パラメータがない)

尤度関数と最尤法と対数尤度関数



ちなみに尤度関数に対数をとることがあります。これは計算を簡単にするためです。というのは掛け算が足算になるという利点です。対数をとった対数尤度関数を解くことと尤度関数を解くことが同値であることは対数関数の単調増加性と次からわかります。






最尤法の例
あるコイン投げを考え、表が出る確率を
このコインを


この事象に対して最尤法により最適な



としてから対数尤度方程式を解く

最尤法と最小二乗法の関係
モデル関数








KLの最小化と尤度最大化の関係


この第2項
ベイズの定理
根幹とも言えるべイズの定理に触れます。2つの事象


事前分布と事後分布とMAP推定
上で得た式をよく見ると左辺では










- 事前分布とは、パラメータに対して事前に仮定する分布です。
- 事後分布とは、取得したデータを用いて事前分布を修正した結果得られるパラメータの分布です。


共役事前分布
ここで事前分布


このように事前分布は人間が最初に設定してあげるものなのです。しかし、よくみてください、積分があるんです。前述通り積分はやばいんです。なのでたまに数値計算で対処します、それが噂のMCMCとかです。
しかし、MCMCは僕には難しい、、なんとか計算したい、、そこで
計算を簡単にするために共役事前分布という特別な性質を持った分布を事前分布に使う習慣があります。共役事前分布とは、事前分布と事後分布が同じ形になるもののことです。

MAP推定の例
二項分布の場合には尤度は












思い出してください、事前分布は我々が選びます。つまり我々の意思を事前分布として反映させられるのです。つまりベルヌーイ分布に対してベータ分布という共役事前分布なるものを導入した場合には、この

このように、勝手に設定できる(しなければならない)パラメータ(今回は

長くなりましたが実際にMAP推定を行っていきましょう。最尤推定と同様に対数をとりましょう、これで計算が楽になります。




MAP推定までやりましたが僕的にMAP推定はそれほど重要ではありません。次にやるベイズ推定をセットでやるとそれぞれの立ち位置的なものがわかります。ですので今回は「MAP推定って事後分布を最大化させるパラメータ探しやねんぁ」くらいにしておいてください。ついでにKLの記事も読んでください。
参考文献
- https://research.miidas.jp/2019/04/klとnllの関係とか/
- https://research.miidas.jp/2019/04/エントロピーとklについて/
- https://research.miidas.jp/2019/09/なぜklを最小化するのか?/