多変量ガウスの標準化と特異値分解について

2019.09.12

機械学習

こんにちは。

標準化は機械学習において非常に重要な概念です。スケール統一のためや学習速度の向上を目的に使われます。そこで今回は多変量ガウス分布の標準化などをやっていこうと思います。数式やいろんな公式が現れますが知らないものがあれば調べながら読むことをお勧めします。

定理

ある $\mu\in\mathbf{R^n}$ と $\sum\in\mathbf{S^n}_{++}$ に対して $X\sim N(\mu,\sum)$ とすると、 $B\in\mathbf{R^{n \times n}}$ が存在し次を満たす、 $Z = B^{-1}(X-\mu)$ とすると $Z\sim N(0,1)$

共分散行列 $\sum$ がある正則行列 $B$ を用いて $\sum = BB^T$ と分解できる(コレスキー分解)
$Z=B^{-1}(X-\mu)$ を用いて $X$ から異なるベクトルランダム変数 $Z$ を作る

ではまず、おなじみのLinear Algebraです。対称行列に関する以下の2つの性質

任意の実対称行列 $A\in\mathbb{R}^{n \times n}$ は常に $A = U\Lambda U^T$ で表される、ここで $U$ はfull-rank直行行列であり、その列に $A$ の固有ベクトルを持ち $\Lambda$ は $A$ の固有値を持つ対角行列である
もし $A$ が正定値対称行列なら、すべての固有値は正である

共分散行列 $\sum$ は正定値なので１つ目の性質を使うことによりある適当な行列 $U,\Lambda$ を用いて $\sum = U\Lambda U^T$ と書けます。また、２つ目の性質を使うことにより $\Lambda ^ \frac{1}{2} \in\mathbb{R}^{n \times n}$ を $\Lambda$ の各要素の二乗根に対応する要素として持つ対角行列とできます。 $\Lambda = \Lambda^{1/2}(\Lambda^{1/2})^T$ なので代入すると

$\sum = U\Lambda U^T = U\Lambda^{1/2}(\Lambda^{1/2})^TU^T = U\Lambda^{1/2}(U\Lambda^{1/2})^T = BB^T$

となります。ただし $B=U\Lambda^{1/2}$ としました。余談ですが僕が今までやってきた中で知っておいたほうがいい分解をいくつかリストしておきます。

対角化
特異値分解(SVD)
QR分解
LU分解
コレスキー分解

特に上の２つは重要ですね、対角化は昔紹介したPCAの応用編で重要な概念になります。話が少し外れましたが上の式変形はコレスキー分解です。

逆行列の公式により、 $\sum^{-1} = B^{-T}B^{-1}$ となるので多変量ガウス分布の式は次のように書き換えられます

$P(x;\mu, \sum) = \frac{1}{(2\pi)^{n/2}|BB^T|^{1/2}}\exp{-\frac{1}{2}(x-\mu)^TB^{-T}B^{-1}(x-\mu)}$

多変量標準ガウスに近づいたことがわかると思います。ここでお分かりかもしれませんが新しい変数を $Z = B^{-1}(X-\mu)$ と定義します。 $X = [X_1 \cdots X_n]^T \in\mathbb{R^n}$ が同時密度関数 $f_X:\mathbf{R^n}\rightarrow\mathbf{R}$ によるベクトル値ランダム変数と仮定します。もし $Z = H(X)\in\mathbf{R}$ ただし $H$ は全単射で微分可能関数なら $Z$ は次の同時密度関数 $f_Z:\mathbf{R^n}\rightarrow\mathbf{R}$ を持ちます。

変数変換式を用いることでベクトル変数 $Z$ が次の同時密度を持つことがわかります。（ヤコビアンとかで調べてください。）

$p_Z(z) = \frac{1}{(2\pi)^{n/2}}\exp(-\frac{1}{2}z^Tz)$

これはまさしく $Z\sim N(0,1)$ です。

定理を実験

上記の定理を実際に確認してみます。作業過程は次の通り

$X\sim N(\mu,\sum),(\mu=[3,3]^T,\sum=diag(1,3))$ を $1000$ 点作成する
ここで作成したデータの平均 $\mu$ を計算しておく
次に定理の $STEP1$ より共分散行列をコレスキー分解し $B$ を求める
上記の $\mu,B$ を用いて新たな確率変数 $Z = B^{-1}(X-\mu)$ を作る
作った各データ $X,Z$ をscatter plotする

こんな感じになりまして。青の点が $X\sim N(\mu,\sum)$ であり、赤の点が $Z\sim N(0,I)$ となっていることがグラフから大体わかります。実際に出力させて確認してみてください。

データ変換行列Wとの関係

上ではどちらかというとデータを戻すという動作を行いました。いえ、標準化を戻すということにしておきます。次に標準化されたデータを変換し、その変換行列の性質を見ていきたいと思います。今、三次元標準ガウス分布に従うデータZが1000点あるとします。そして、これを二次元に移す変換Wをかけた時のデータWZとWの関係を考察しましょう。たとえば

とういう変換をかけた場合、 $Cov(WZ,WZ)$ の固有ベクトルは

の各列ベクトルであり固有値は $[ 55.27931408~,~4.49399939]$ です。ここでWの特異値分解 $W = U \sum V$ を見てみます

この通り $Cov(WZ,WZ)$ の固有ベクトルはUの各列ベクトルに、固有値は特異値の平方に近い値になっていますね。数式を用いて確認してみましょう。Wの特異値分解を $W = U\sum V$ とし、 $O$ は適当な零行列です

$WW^T = U\sum VV^T{\sum}^TV^T = U\sum{\sum}^TU^T$

$E(WZ)= WE(Z)=0$ であり

これより上記の予想が正しかったことがわかります。

特異値分解の関係

まず $WZ$ の共分散行列 $\Sigma$ を対角化し $\Sigma = PAP^{-1}$ となったとします。ここで線形変換行列 $W$ は $W = PA_{1/2}$ としておくと。ただし、 $A_{1/2}$ の各成分は行列 $A$ のそれぞれの成分の正の平方根。 $WZ = PA_{1/2}Z$ の共分散を求めると

となります。つまり、 $W = PA_{1/2}$ とすることで，この形の共分散が達成されることがわかります。 $P$ が直交行列であることを忘れずに。次に $W$ の特異値を求めます。 $W$ の特異値は $WW^{T}$ の固有値の正の平方根です。まず $WW^{T}$ を計算すると

$WW^{T} = PA_{1/2} A^{T}{1/2}P^{T} = PAP^{T}$

これは $WW^{T}$ の対角化そのものであるので $W$ の特異値は $A{1/2}$ の対角成分となり、 $W^TW$ の固有値は $WW^T$ の固有値と一致するので $A$ の対角成分となります。つまり、 $\Sigma$ の固有値の平方根が $W$ の特異値となるんです。

対角化と特異値分解は奥が深いですね。ちなみに最近パソコンがかなり暑くなって調子が悪いです。でわ。

Reference

http://cs229.stanford.edu/section/gaussians.pdf