本日は前回話したKLについてと基本となるエントロピーについてお話しします。とりあえずエントロピーから行きましょう。 エントロピーって物理でも使われる言葉です。今回扱うのは情報理論におけるエントロピーです。
情報量とはなにか?、たとえば、「カレー味の💩を食べた」と「💩味のカレーを食べた」という情報では、後者の方がえぐい情報だと思います。そうですよね?従って、その情報量も大きいと考えます。他には、次の彼女が「年下である」という情報と、「20歳のアイドルである」との情報では、後者が“情報量”が大きいことは明らかだろう。よって、情報量を数量的に規定するには、その情報の基になる事象の出現確率で表現すればよいことがわかります。
- 珍しい事⇄出現確率が小さい⇄情報量が大きい
- ありふれたこと⇄出現確率が大きい⇄情報量が小さい
選択情報量(自己エントロピー)
選択情報量(自己エントロピー)、単に情報量とも言われる。 事象はて、なぜこのような式で表されるのか?。が起こる確率を
とするとき、事象
が起こったと知らされた時の情報量
を次と定義する。
それぞれ独立な関係にある事象を見ていこう。それぞれが独立である事象の情報量はそれぞれの情報量の和になっていなければならないが事象の同時確率というのはそれぞれの確率の積で表されることを考えると、確率
![Rendered by QuickLaTeX.com p_i(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-2e59813946531416b551de088caa035c_l3.png)
![Rendered by QuickLaTeX.com h(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-81577696f96e5719353992c5632a834c_l3.png)
をみたしていてほしいですよね。そのような関数としては対数関数が非常に直感的だと思います。さらに確率が低いほど情報量は高いと考えたいので情報量を表す関数は減少関数でないとならない。よって、とある事象
![Rendered by QuickLaTeX.com x](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-ede05c264bba0eda080918aaa09c4658_l3.png)
![Rendered by QuickLaTeX.com p(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-281d25eadace5f1ac42638e934e3eff1_l3.png)
![Rendered by QuickLaTeX.com h(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-81577696f96e5719353992c5632a834c_l3.png)
と表されます。そしてもう1つは
平均情報量(エントロピー、シャノンエントロピー)
平均情報量(エントロピー、シャノンエントロピー)。これは得られる情報量の期待値である。事象普通な疑問としては両者の違いだろう。自己情報量ではある単一の事象が起こる確率を
とし、すべての事象
に対して、その情報量の期待値を平均情報量という。
![Rendered by QuickLaTeX.com x](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-ede05c264bba0eda080918aaa09c4658_l3.png)
では、エントロピーをまとめよう。
- エントロピーが大きい➙不確定性が大きい
- エントロピーが小さい➙不確定性が小さい
![Rendered by QuickLaTeX.com [0.5-\delta,0.5+\delta]](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-c144c55f62e9bec5f7626041f9542405_l3.png)
![Rendered by QuickLaTeX.com \delta \rightarrow 0](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-233d89a71724c1d159bbeb8ad32a2326_l3.png)
![Rendered by QuickLaTeX.com \frac{1}{2 \delta} \log \frac{1}{2 \delta}](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-99c118d4dceecc3c8d223d29e9e1432d_l3.png)
![Rendered by QuickLaTeX.com -\infty](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-46ff86acf9d540b0b8101bd9737e8e5c_l3.png)
![Rendered by QuickLaTeX.com -\infty](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-46ff86acf9d540b0b8101bd9737e8e5c_l3.png)
![Rendered by QuickLaTeX.com p_i = \exp(\lambda - 1)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-0cfd8264ac59c6207446db305407a4a4_l3.png)
では最後にKLをちょこっとやって今回は終わりにしよう。
まず、KLは2つの確率分布が互いにどれだけ異なっているかを表す指標です。
たとえば、情報を相手に伝えることを考えよう。もし
![Rendered by QuickLaTeX.com p(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-281d25eadace5f1ac42638e934e3eff1_l3.png)
![Rendered by QuickLaTeX.com q(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-94be3e4b50d0da6b6a80414761df3a58_l3.png)
これをcross-entropyと言います。これは2つの確率分布の似通い具合を測るために使われます。そして今から話すKLも同じように使われます。この時、別の確率変数
![Rendered by QuickLaTeX.com q(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-94be3e4b50d0da6b6a80414761df3a58_l3.png)
相対エントロピーのことを別名カルバックライブラーダイバージェンスともいいます。ギブスの不等式よりKLが
![Rendered by QuickLaTeX.com 0](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-a5e437be25f29374d30f66cd46adf81c_l3.png)
![Rendered by QuickLaTeX.com p(x)=q(x)](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-52a8a1f55f6e7514599c9f5a8361cff7_l3.png)
今回はエントロピーをテーマにしました。機械学習をしているとあちこちに出てくるので知っておいたほうがいいでしょう。次回はこのKLに焦点を絞ってはなしたいと思います。
でわ