こんにちは。 今回のテーマは「勾配法(Gradient Method)」です。これは関数の極値を求める手法です。いきなりですがその多種多様な具体的手法をみてみましょう。
  1. Gradient descent (ascent)
  2. Batch gradient descent
  3. Stochastic gradient descent
  4. Mini-batch gradient descent
  5. Momentum
  6. AdaGrad
  7. Adam
  8. Adadelta
  9. RMSprop
他にも「ここ」にいっぱいあります。僕の中の最新はAdamだったんですが「ここ」をみると改良されたのかな?まあ置いておいて。ところで

そもそも「勾配」ってなんや?

って思いませんか?僕も初めの方は無意識で勾配を扱っていました。勾配の定義をまず確認しましょう。
ベクトル解析におけるスカラー場勾配(こうばい、: gradient; グラディエント)は、各点においてそのスカラー場の変化率が最大となる方向への変化率の値を大きさにもつベクトルを対応させるベクトル場である。簡単に言えば、任意の量の空間における変位を、傾きとして表現(例えば図示)することができるが、そこで勾配はこの傾きの向きや傾きのきつさを表している。  (from wiki
わかりずらい!シンプルに言うと関数の変化率が最も大きくなる方向を勾配ベクトル(勾配)と言います。 証明はテイラー展開すれば簡単にできます。テイラー展開を少しだけおさらいすると局所的に関数を見たいときに使うんでしたね。厳密な証明はググれば山ほど出てくるのでここではメチャ雑に示します。

    \[f(x + \delta) \approx f(x) +  ( \nabla f ) \delta   \]

    \[( \nabla f ) \delta = |\nabla f | |\delta| \cos(\theta)  \]

\theta=0f(x + \delta)は最大化されます。(ちなみに、\delta, \epsilonは微量を意味します。)つまり\nabla f\deltaが平行の時ですね。この時関数が最も大きく変化します。 実際に計算するときは各変数ごとに偏微分すればいいです、つまりf=f(x_1, x_2, x_3)とすると

    \[\nabla f = \left(  \frac{\partial f}{\partial x_1} , \frac{\partial f}{\partial x_2} , \frac{\partial f}{\partial x_3}     \right)  \]

あ、\nabla、この記号は勾配を表します。例えば一変数の関数だとその勾配は傾きに等しくなりますね。 では勾配と言うものがわかったので

THE 勾配法

行ってみましょう。勾配法とは目的関数を最適化するための局所解を見つける手法のことです。簡単なイメージを持ってもらうためにしたの図を用意しました。 勾配(gradient)を使って関数の極小値・極大値を見つける方法です。ニュートン法とちょっと似てます。式で書くと次のようになります。x^nはn回目の移動時のxの値とします。(乗数ではありません。)

    \[x^{n+1} = x^n  \pm \eta \nabla f(x^n)  \]

勾配が関数を最大化する方向であることに注意すると。+は最大化する際に使います、なのでgradient ascentと書きます。一方、-は最小化する際に使います。gradient descentと書きます。普通はdescentです。ところで\eta(イータ)についてですがこれは学習率といわれるものです。xの動き具合を決定します。これについては次の図をみてみましょう。 \etaがデカイと動く幅が大きくなるので左の図のようになります。一方、小さすぎると最適解までにたくさん移動する必要があります。 上の図は一変数関数の場合のイメージ図でした。実際は多変数関数を扱うことが多いのでもう一つ2変数関数の場合のイメージ図を見てみましょう。 左のplotを等高線で表したものが右の図になります。機械学習では等高線の図は頻繁に見るので慣れてない方は慣れた法がいいです。赤い点と緑の点が異なる勾配法による最適解の軌跡です。ほんとは左の方がこの図だと最適解なんですが右のくぼみに進んでいますね。 数学ちっくな人はこの数列について収束するのか、と疑問を持った人もいるでしょう。 :http://www.stat.cmu.edu/~ryantibs/convexopt-F13/scribes/lec6.pdfhttps://perso.telecom-paristech.fr/rgower/pdf/M2_statistique_optimisation/grad_conv.pdf 例えばこことかに書かれているので興味がある方は読んでみてください。ニュートン法の時の証明結構めんどうだったのでたぶんこっちも結構ヤバそう。。。。。   とりあえず今回で勾配法が何かを理解できたと思います。次回はがっつりコード書きましょう! 引用:
  1. https://hackernoon.com/gradient-descent-aynk-7cbe95a778da
  2. https://towardsdatascience.com/gradient-descent-in-a-nutshell-eaf8c18212f0