本日は機械学習をやっていると必ず出てくるカルバックライブラーダイバージェンスについてです。分布間の似通いを測るこの指標を最小化したい!ということがよくあります。しかし、それはクロスエントロピー最小化と同値関係にあります。
以前、KLについて以下の二つの記事も書いたのでよければ見てください。
Cross-Entropy
前回も紹介しましたがクロスエントロピーはKLと同様に分布間の似通いを測ります。以下、



ではなぜ世間では「KL最小化しようぜ!、KL最小化しようぜ!」と盛り上がっているのでしょうか?
結論としては、私にはあまり理解できませんでした。
おそらく統計学的な考えが絡んでいるのだと思います。実際、アンサーにはミニバッチによるロバスト性についての意見をいただきました。
In may machine learning projects, mini-どなたかわかりやすい例などお持ちの方はコメントをいただきたいです。batich is involved to expedite training, where the 𝑝′ of a minibatch may be different from the global 𝑝. In such a case, Cross-Entropy is relatively more robust in practical when KL divergence needs a more stable H(p) to finish her job.
話は変わりますが、せっかくなので多変数ガウス分布間のKLを計算してみます。たまには計算をやっとかないとどんどんできひんくなる、、
多変数ガウス分布の間のKL
ちなみに、一変数は以前やったので上のリンクから飛んでください。
