概要

機械学習とか統計を勉強していると情報量とかエントロピーの話が出てきていつも復習をし直しているので，纏めておく．

全体の１行まとめ

事象eの確率がP(e)で与えられるとき，その事象の情報量は-log(P(e))。不確実性の指標になる。
(情報)エントロピー(H)は，情報源の平均情報量，つまり，情報量の期待値=エントロピー。不確実性の期待値。
情報源が２つ以上の場合には，一方(x)について知った場合の，もう一方(Y)のエントロピー=条件付きエントロピー(H(Y|X))が定義される。
相互情報量I(X,Y)は，H(X) - H(X|Y)で定義され，Xの情報量(の期待値)からYを知っている時のXの情報量(の期待値)の差。絶対に０以上。(Yを知ることでは知れないXの情報量ってこと？)
相対エントロピー(=カルバック・ライブラー情報量)は，2つの情報源x, yの確率分布の距離。
確率変数が２つ以上の場合，結合エントロピーが定義される，つまり，結合エントロピーはエントロピーの多変数版。

事象Aが与えられた時に，その情報量って？というものに答える．
確率を使って考える．発生が稀な事象と，よくある事象があった時にどっちに遭遇した場合が情報の量が増えたと思うか？ここで，稀な事象の方がゴミみたいな事象なんだから情報は無い，と考えるんじゃなくて，めったに遭遇できない事象に出会えたらそこで知れる情報の量は大きい（価値が高いって感じ？）と考える．
そこで，発生確率が小さいほど大きくなるような単調減少関数で情報量を定義しよう，という発想になる．
次に，どんな単調減少関数がいいかな？と考える．そこで，独立性な事象における情報の加法性を考えてみる．事象AとB，それぞれの情報量I(A),I(B)があった時に，I(A∧B)は？と考えると，独立なんだから，合わさって情報量が増えることはないでしょう，単純に和でしょ？と考える．独立な確率の同時確率はP(A)*P(B)．これを情報量化すると和になってくれればいい，，，，ってことでよくある-log(P)が定義される．
事象A,その発生確率をP(A)とすると，情報量I(A)は以下で定義される．定義されているということが重要．あくまでも定義なんだ

I(A) = -log(P(A))    (1)

H(x) = sum{-logP(x) * P(x)}   (2)

2つの情報源X,Yがあった時に，その情報源の互いの情報量は？という疑問に答える．つまり，一方の情報源Xの情報を知った時に，Yの情報をどの程度わかるかな？という問い．
確率の独立性と関係があるのが直感的にもわかる．
計算方法は下記．ここで，H(X,Y)はXとYの同時事象の情報量の期待値（結合エントロピーと言う．XとYの両方から知れること）．式から想像できるように，それぞれの独立の時のエントロピーから，重複部分を除く，というよくあるド・モルガンの図のイメージ．

I(X,Y) = H(X) + H(Y) - H(X,Y)   (3)

ド・モルガン図でイメージすると分かりやすい．
事象Xのエントロピーと事象Yのエントロピーがそれぞれあるとする．
相互情報量は重なっているA&Bの部分．ここが，Xを知ってYを知れることだし，Yを知ってXを知れることだもんね．
結合エントロピーはA|Bなエントロピー．つまり，重複も許して，XとYから知れること．
紛らわしいのが条件付きエントロピー．意味は，Xを知っている状況でYから知れること．これは包含図でいうと，H(X)-H(X&Y)の部分．つまり，重複部分を除いた，純粋にXだけからしか知れないこと．
もう一つ忘れてならないのがKLダイバージェンス．2つの分布の距離を測るものらしい，が式から直感的に理解ができない．2つの分布の比の一方からみた期待値，という感じなのかな？
KLDとMIの関係で悩むけれど，よく分からない・・・．MIは2つの確率変数X,Yに対する定義でKLDは１つの確率変数上の２つの分布で書かれているのを目にするけど，KLDはそれに限定されているのかな？もっと勉強が必要だ．