雑記(6)

もう一度、相対エントロピーと自由エネルギーの関係を整理しておく。相対エントロピーの定義式を物理系に置き換えて

 \begin{align} B(p, q) &= k_B\sum_{i = 1}^{k} p_i\log {\frac{p_i}{q_i}}\\&= k_B\sum_{i = 1}^{k} (p_i\log {p_i}-p_i\log{q_i})\end{align}

これに、

 q_i = \frac{1}{Z} \exp( -\frac{E_i }{k_BT})

を代入すると、

  \frac{1}{Z}= \exp(\frac{F}{k_BT})

から、

 - k_{B}p_i\log{q_i} = \frac{E_i  -  F}{T}p_i

となり、結局、

 \begin{align} B(p, q) &= \sum_{i = 1}^{k} (k_{B}p_i\log {p_i}+ \frac{E_{i}p_i}{T}  )-  \frac{F}{T}\end{align}

となるが、

 B(p, q) \geq 0 (等号は  p = q のとき)

であったから、

 \sum_{i = 1}^{k} (k_{B}p_i\log {p_i}+ \frac{E_{i}p_i}{T}  ) \geq  \frac{F_{eq}}{T}

となる。したがって、相対エントロピーを最小化することは、自由エネルギー  F を最小化することに他ならないが、これは分配関数  Z を最大化することとも等価である。


この事実は、「 T=1, k_B = 1 とした場合に」応用が認められる。

 \sum_{i = 1}^{k} (p_i\log {p_i}+ E_{i}p_i  ) \geq  F_{eq}

つまり、

 F_{eq} = min _{p} [\sum_{i = 1}^{k} (p_i\log {p_i}+ E_{i}p_i  )]

 F = - \log Z

とした場合であるが、最後の式は、以下のように書くとより直感的かも知れない。

  \exp(-F)= \sum_{i = 1}^{k}\exp(-E_i )

特に応用が認められるのは、

 \mathbf {x}=(x_1,x_2,\cdots,x_k)

 k 次元ユークリッド空間のベクトル = データセットとし、

 q(\mathbf{x}) = q(x_1,x_2,\cdots,x_k)

 k 次元ユークリッド空間上の確率分布とした場合である。高次元空間上の確率分布  q(\mathbf{x}) を求めるのは、しばしば困難なので、これを「 x_1, x_2, \cdots , x_k について独立である」と考えた確率分布

 p(\mathbf{x}) = p_{1}(x_1) p_{2}(x_2) \cdots p_{k}(x_k)

とし、相対エントロピー

 B(p, q) = \sum_ {i = 1}^{k} p_i(\log p_i-\log q_i)

を最小にする  p(\mathbf{x}) を求めることで、 p(\mathbf{x}) q(\mathbf{x}) の近似と見なす応用を考えるのである。このような近似法は物理では、「平均場近似」と呼ばれている。最近では (と言ってもかなり前からだが) ベイズ事後確率を求める際の「尤度」をハミルトニアン(エネルギー)、「周辺尤度 (分配関数!とも呼ばれる)」を分配関数 (したがって自由エネルギーが定義できる) とみなして、「平均場近似」が適用されることも少なくない。


なお、補足として最尤法とは、モデルとしている確率分布のパラメータ(母数: 正規分布でいえば平均と分散のこと) \mathbf{u} を未知として、既定のデータから母数をエントロピー最大化の原理にしたがって推測することである。まず、

 q(x|\mathbf{u})

においてモデルとしてボルツマン分布を選択するとし、 p(x)一様分布と仮定する。そして、「尤度」を

 L_k(\mathbf{u}|x)= \prod_{i=1}^{k}q(x_i|\mathbf{u})

「対数尤度」を

 \log L_k(\mathbf{u}|x)= \sum_{i=1}^{k} \log q(x_i|\mathbf{u})

として定義すると、

 \begin{align}\sum_{i = 1}^{k}p_i\log q_i&=\frac{\log L_k(\mathbf{u})}{k}\\&=-\frac{1}{k}\sum_{i=1}^{k}E(i|\mathbf{u})-\log Z(\mathbf{u})\end{align}

となる。この最大値を勾配法で求めるには母数で微分する必要がある。

 \frac{1}{k}\frac{\partial \log L_k(\mathbf{u})}{\partial u_p}
=-\frac{1}{k}\sum_{i=1}^{k}\frac{\partial E(i|\mathbf{u})}{\partial u_p}\\+\frac{1}{Z}\sum_{i =1}^{k}\frac{\partial E(i|\mathbf{u})}{\partial u_p}\exp[-E(i|\mathbf{u})]