本日は前回話したKLについてと基本となるエントロピーについてお話しします。とりあえずエントロピーから行きましょう。 エントロピーって物理でも使われる言葉です。今回扱うのは情報理論におけるエントロピーです。
情報量とはなにか?、たとえば、「カレー味の💩を食べた」と「💩味のカレーを食べた」という情報では、後者の方がえぐい情報だと思います。そうですよね?従って、その情報量も大きいと考えます。他には、次の彼女が「年下である」という情報と、「20歳のアイドルである」との情報では、後者が“情報量”が大きいことは明らかだろう。よって、情報量を数量的に規定するには、その情報の基になる事象の出現確率で表現すればよいことがわかります。
- 珍しい事⇄出現確率が小さい⇄情報量が大きい
- ありふれたこと⇄出現確率が大きい⇄情報量が小さい
選択情報量(自己エントロピー)
選択情報量(自己エントロピー)、単に情報量とも言われる。 事象が起こる確率をとするとき、事象が起こったと知らされた時の情報量を次と定義する。はて、なぜこのような式で表されるのか?。
それぞれ独立な関係にある事象を見ていこう。それぞれが独立である事象の情報量はそれぞれの情報量の和になっていなければならないが事象の同時確率というのはそれぞれの確率の積で表されることを考えると、確率に対して情報量の関数は
をみたしていてほしいですよね。そのような関数としては対数関数が非常に直感的だと思います。さらに確率が低いほど情報量は高いと考えたいので情報量を表す関数は減少関数でないとならない。よって、とある事象が起こる確率がとするとその情報量の関数は
と表されます。そしてもう1つは
平均情報量(エントロピー、シャノンエントロピー)
平均情報量(エントロピー、シャノンエントロピー)。これは得られる情報量の期待値である。事象が起こる確率をとし、すべての事象に対して、その情報量の期待値を平均情報量という。普通な疑問としては両者の違いだろう。自己情報量ではある単一の事象における情報量しかわからなかったが、エントロピーの概念を用いれば、 標本空間全体の情報量を定量することができるというのが違いです。
では、エントロピーをまとめよう。
- エントロピーが大きい➙不確定性が大きい
- エントロピーが小さい➙不確定性が小さい
よってデルタ分布ではエントロピーはとなります。エントロピーを不確定性の大きさと考えるとデルタ分布ではエントロピー、つまり、不確定性の大きさがです。これはなにが起こるか100%わかるのがデルタ分布と考えると納得できる結果だと思います。 では、次の問題を考えます。
この条件下で
を最大化させよう。ラグランジュの未定乗数法を用いて
より
よりが得られて、これを条件式に代入すると
これを先ほどの式に代入して
というふうに求まる。つまり、シャノンが最大になるのは一様分布ということでこちらも納得できる結果だろう。
では最後にKLをちょこっとやって今回は終わりにしよう。
まず、KLは2つの確率分布が互いにどれだけ異なっているかを表す指標です。
たとえば、情報を相手に伝えることを考えよう。もしがとても複雑な様相をしており伝達するのにととも時間がかかるとします。この時、別のというもう少し単純な確率分布で時間の短縮をしたいとします。すると相手側が受け取るエントロピーは次のようになります。
これをcross-entropyと言います。これは2つの確率分布の似通い具合を測るために使われます。そして今から話すKLも同じように使われます。この時、別の確率変数を相手側に伝えているため実際のエントロピーとの差が生じます。この差のことを相対エントロピーといいます。つまり相対エントロピーの式は
相対エントロピーのことを別名カルバックライブラーダイバージェンスともいいます。ギブスの不等式よりKLがになるのはとなる場合のみであることがわかります。
今回はエントロピーをテーマにしました。機械学習をしているとあちこちに出てくるので知っておいたほうがいいでしょう。次回はこのKLに焦点を絞ってはなしたいと思います。
でわ