Science Blog

HRサイエンス研究所®︎

トップ
Variational Bayes 入門

Variational Bayes 入門

2020.02.13

こんにちは。

本日は変分ベイズやります。ちなみに呼び方はいくつかありまして、変文ベイズ、変分推論、Variational Approximation（変分近似）など。

変分とは？

そもそも変分ってなに！って感じですよね。実はこれ微分方程式とか汎関数とかが関わってます。

例えば点推定である最尤法はスコア関数（対数尤度）を微分して解を求めますよね。変分法はこれを拡張した概念です。

つまり、関数の関数の微分が変分です。

変分とは汎関数の微分です。詳しくは調べていただくとすぐわかりますが例えば最短曲線など求めるときはオイラーラグランジュ方程式と変分法を用いたりします。

変分ベイズとは？

事後分布 $p(\theta, X)$ を求める手法の一つです。MCMCと同じ感じ？と思った方もおられると思います。はい、MCMCも事後分布を求める手法です。

mcmc入門-gibbs-sampling

ではもういきなりですがVBとMCMCどっちがいいの？という疑問が生まれます。

ずばり、一番の違いは速度です。一般的にはVBの方が早く、計算の多いMCMCは遅いです。データ $X$ が多いときはVBの方がいいかもしれません。ただ上にあるようにVBは漸近的に分布を保証するわけではありません。

まずは変分下限の登場です。EMアルゴリズムの時と似てます。

$z$ は潜在変数（パラメータ）です。 $H[z] = - \mathbb{E}_q[\log q(z)]$ は前回登場したShannon entropyですね。最後の式が変分下限です、 $L$ と置くことにします。

せっかくなのでKLダイバージェンスとの関係も見てみます。

目的は事後分布 $p(z|X)$ を近似することです。なので $q(z)$ でKL最小化を目指します。式の最後で出てきた $L$ は先程と同じ。つまり、KLの最小化は変分下限の最大化に等しいことがわかりました。

しかもよくみてください、KLって汎関数ですよね。

Mean-Field Approximation

変分ベイズでは平均場近似という重要なポイントがあります。これは $q(z)$ に与える次の仮定です。

つまり、各潜在変数が独立であると仮定します。すると変分下限は次のように書き直せます。

計算を整理するために次を用います。対象の変数以外での期待値です。

これを用いて先程の式をさらに展開していきます。

$i$ に注目していただければわかりますが、くくりあげています。第二項は $i$ を除く $j$ の項です。ラグランジュを用いて次の目的関数を得ます。

ここで変分法を使います。具体的には $q_j(z_i)$ に関してEuler-Lagrangeを用います。

ここで、 $Z_i$ は正規化定数と呼ばれるものです。以上からわかるように $q_i$ の最適化には他のすべての $q_j$ が必要になるのでイテラティブな更新になります。

一変数ガウスの例

次のような例を考えます。

変分ベイズを用いてパラメーラ $\mu, \tau$ の分布を逐次的に求めます。まず以下の尤度をばらしておきます。

また平均場近似より次を仮定します。

では先程の計算を用いて $q_\mu$ を計算します。

$\mu$ に関して平方完成して以下を得ます。

同様の作業を次は $\tau$ について行います。

ガンマ分布に注意して

以上より

がわかりました。これより各期待値も簡単にもとまります。

したがって

を用いて更新すればいいことがわかります。

もう一つの例として混合ガウス分布をVBを使ったEMで求める例がありますが、非常に難しいので詳しくは以下をご覧ください。

応用

難しすぎて実装できませんでしたが変分ベイズを使った応用はたとえば自然言語処理におけるLDAがあります。とても難しい、、、、でわ

References

コメントするコメントをキャンセル

TOP