ホーム » 機械学習 » ねぇPython、PCAって何？（理論編）

ねぇPython、PCAって何？（理論編）

投稿者: junko.hosoda in 機械学習投稿日: 2018-11-28

こんにちは。いまだにたまに暑いと感じるkzです。今回はなにをやりましょうかねえ。

このデータは見ての通り２次元(平面)データです。これを1次元(直線)に置き換えたいです。

各点の配置は？

置き換える時に重要なのは距離感です。離れていた点通しが置き換えた先でご近所さんになると元のデータをうまく表現できてるとは言えませんよね。それが次の図です。

離れていたはずがご近所さんになってしまっています。一方で次の図はどうでしょう、

さっきよりはうまく元のデータを表せていますよね。ではこれを先ほどの青いデータで考えると

この赤矢印上に先ほどと同様にして点を置き換えれば $\mathbb{R}^2 \Rightarrow \mathbb{R}^1$ つまり２次元のデータを１次元で説明できることになります。

では本日の本題に入りましょう。

上の赤矢印（軸）

どうやっていい軸を選びましょうか。じーっと見てみましょう。広がっている方向に矢印が伸びていますね。つまりいい軸とはデータを矢印だけで表現したものと捉えることができそうです。では具体的にいい軸(ベクトル)をどう求めるかを考えましょう。

とりえあず求めるベクトルを $v$ とします。今長さは別に興味ないので $| v |=1$ とします。

https://en.wikipedia.org/wiki/Vector_projection

正射影ベクトルを考えます。下の緑( $a_1$ )はaのbへの射影です。

https://www.geogebra.org/m/mkV7F8Jf

上の図は $a$ をデータ点 $b$ を求めたいベクトルとした時に $a_2$ の最小化もしくわ $a_1$ の最大化がしたいことになります。この事実は次のgifより明らかです。

なので今回はデータを $x_i$ 、ベクトルを $b$ とするとその正射影ベクトルは

$\frac{x_i \cdot v}{|v|} v$

です。これを全データで最大化したいので次のようになります。 $\frac{1}{N-1}$ は都合上のものです！

$\frac{1}{N-1} \sum_{i=1}^{N} (x_i^T v)^2 = \frac{1}{N-1} \sum_{i=1}^{N} (x_i^T v)^T(x_i^T v)$

$= v^T \left(\frac{1}{N-1}\sum_{i=1}^{N} ( x_i x_i^T)\right) v$

となります。 $\frac{1}{N-1} \sum_{i=1}^{N} ( x_i x_i^T)$ これって何でしょう？一応ですが $x_i,v$ は共に縦ベクトルです。

https://en.wikipedia.org/wiki/Estimation_of_covariance_matrices

そうです共分散行列です。これを $\Sigma$ と書くことにします。すると

$v^T \Sigma v$

が今回の目的関数です。今まで通りならこれを最大化するだけだったんですが今回は制約があります。

$| v | = 1$

です。この状況を条件付き極値問題と言います。これを解くには技が必要です。

$\texttt{Maximize} ~~~ f(x,y)$

$\texttt{Subject to} ~~~ g(x,y)=0$

を考える、 $f,g$ が $\mathbb{C}^1$ 級（微分可能かつ導関数が連続）とする。点Pが極値をとるならば

$\mathcal{L} (x,y, \lambda) = f(x,y) - \lambda g(x,y)$

$\nabla f (P) - \lambda \nabla g(P) = 0$

を満たす。あくまで候補点です。要点だけいうと勾配が平行になる点です。

証明や詳しい解説はここにあります。

これをラグランジュの未定乗数法と言います。これを使って計算しましょう。

$\mathcal{L} (v, \lambda) = v^T\Sigma v - \lambda (| v|)$

$\frac{\partial \mathcal{L}}{\partial v}= (\Sigma+\Sigma^T)v - 2 \lambda v = 0$

$\Sigma v = \lambda v$

おっと、これわ。。。。

固有ベクトルと固有値そのもの

要点をいうと $x\neq 0$ のベクトルが行列 $A$ の固有値であり $\lambda$ がその固有ベクトルとは

$Ax = \lambda x$

となることをいい、行列 $A$ による作用が伸縮になるベクトルを固有ベクトルといいその伸縮率を固有値といいます。

もう少し別の言い方をすると。行列をかけた時に向きが変わらないベクトルとその伸縮率です。

詳しくは下のリンクを見てください。

したがって今回私たちが求めていたベクトル、いい軸は

データの共分散行列の固有ベクトル

とわかりました。つまりデータを固有ベクトルという軸へ射影することで得た新たなデータ点は

データの次元を落としつつ最大限に元のデータを表現している新しいデータ

ということになります。これがPCAのやってることです。

「PCAは射影である」

今回は2次元から1次元へのPCAでしたが一般にn次元へのPCAも同じです。固有ベクトルを軸としてとってきて射影により座標がデータのPCA後の座標です。2次元へのPCAなら2本の固有ベクトルにデータを射影して新たな座標を定義します。

最後に用語の説明をしておきます。

第n主成分: 固有値が大きい方から数えてn番目のものに対応する固有ベクトルのことをいう。
寄与率: (第n番目固有値/固有値の総和)
累積寄与率: 寄与率の累積

寄与率？固有値？

はい、説明します。固有値は伸縮率といいました。つまり対応する固有ベクトル方向へのデータの散らばり具合です。よって固有値とはデータの広がり具合（分散）を説明します。なので「元データを説明している具合」を分散という観点から考えて寄与としています。

本日はここまで。でわ

参考；

http://cs229.stanford.edu/notes/cs229-notes10.pdf

タグ: PCA, 固有ベクトル, 固有値

コメントするコメントをキャンセル