ホーム » その他 » ねぇPython、勾配法って何？（理論編）

ねぇPython、勾配法って何？（理論編）

投稿者: junko.hosoda in その他投稿日: 2018-11-02

こんにちは。

今回のテーマは「勾配法（Gradient Method）」です。これは関数の極値を求める手法です。いきなりですがその多種多様な具体的手法をみてみましょう。

Gradient descent (ascent)
Batch gradient descent
Stochastic gradient descent
Mini-batch gradient descent
Momentum
AdaGrad
Adam
Adadelta
RMSprop

他にも「ここ」にいっぱいあります。僕の中の最新はAdamだったんですが「ここ」をみると改良されたのかな？まあ置いておいて。ところで

そもそも「勾配」ってなんや？

って思いませんか？僕も初めの方は無意識で勾配を扱っていました。勾配の定義をまず確認しましょう。

ベクトル解析におけるスカラー場の勾配（こうばい、英: gradient; グラディエント）は、各点においてそのスカラー場の変化率が最大となる方向への変化率の値を大きさにもつベクトルを対応させるベクトル場である。簡単に言えば、任意の量の空間における変位を、傾きとして表現（例えば図示）することができるが、そこで勾配はこの傾きの向きや傾きのきつさを表している。　　（from wiki）

わかりずらい！シンプルに言うと関数の変化率が最も大きくなる方向を勾配ベクトル（勾配）と言います。

証明はテイラー展開すれば簡単にできます。テイラー展開を少しだけおさらいすると局所的に関数を見たいときに使うんでしたね。厳密な証明はググれば山ほど出てくるのでここではメチャ雑に示します。

$f(x + \delta) \approx f(x) + ( \nabla f ) \delta$

$( \nabla f ) \delta = |\nabla f | |\delta| \cos(\theta)$

$\theta=0$ で $f(x + \delta)$ は最大化されます。（ちなみに、 $\delta, \epsilon$ は微量を意味します。）つまり $\nabla f$ と $\delta$ が平行の時ですね。この時関数が最も大きく変化します。

実際に計算するときは各変数ごとに偏微分すればいいです、つまり $f=f(x_1, x_2, x_3)$ とすると

$\nabla f = \left( \frac{\partial f}{\partial x_1} , \frac{\partial f}{\partial x_2} , \frac{\partial f}{\partial x_3} \right)$

あ、 $\nabla$ 、この記号は勾配を表します。例えば一変数の関数だとその勾配は傾きに等しくなりますね。

では勾配と言うものがわかったので

THE 勾配法

行ってみましょう。勾配法とは目的関数を最適化するための局所解を見つける手法のことです。簡単なイメージを持ってもらうためにしたの図を用意しました。

勾配(gradient)を使って関数の極小値・極大値を見つける方法です。ニュートン法とちょっと似てます。式で書くと次のようになります。 $x^n$ はn回目の移動時のxの値とします。（乗数ではありません。）

$x^{n+1} = x^n \pm \eta \nabla f(x^n)$

勾配が関数を最大化する方向であることに注意すると。 $+$ は最大化する際に使います、なのでgradient ascentと書きます。一方、 $-$ は最小化する際に使います。gradient descentと書きます。普通はdescentです。ところで $\eta$ （イータ）についてですがこれは学習率といわれるものです。xの動き具合を決定します。これについては次の図をみてみましょう。