そもそも機械学習における学習とはなんなのか?
を少し考えてみましょう。まずはデータの形から







誤差が最小になるようにすることが学習です
ここまではとても直感的な説明でした、では最後の赤文字について話していきます。mean squared error
聞いたことありませんか?機械学習をちょっとでもしてる人なら初見ではないと思います。(ちなみに上の赤字の部分をerrorとよく言います。)数式だと次のような形です。



-
損失関数 (loss function)



- square loss :
(よく見かける)
- hinge loss :
(SVMで見かける)
-
コスト関数 (cost function)
- Mean Squared Error :
-
目的関数 (Objective function)
- Divergence (KLとか)

学習についてもう少し踏み込みましょう
機械学習における学習はなんなんでしょうね。前述の例だと「学習する」 「平均二乗誤差を最小化する」
パラメータって何?
これはモデルを定義する時に使われます。例えば


目的関数が最小/最大になる時の解を見つけること
が学習になります。しかし、図を見てみると「local minimum (局所的最適解)」「global minimum (大域的最適解)」が混在していますね。青丸を変数の初期値としましょう。(学習を「どこ・なに」から始めるかを初期値という)そして学習(ただ下に向かうだけ)をさせると明らかに初期値によって異なるminimumに到達しますよね。これは機械学習における問題の一つなんです。僕も解決策は知りません。しかし、もし目的関数がお椀のような形をしていればどこからスタートしてもglobal minimumに行きますよね。そんな都合のいい目的関数の性質は「凸関数 (convex)」であることです。 関数
![Rendered by QuickLaTeX.com \forall x,y \in \mathbb{R}^n , \lambda \in [0,1]](https://research.miidas.jp/wp-content/ql-cache/quicklatex.com-8f11ef1f9d3ea36ad2049729c8b69017_l3.png)


- https://qiita.com/koshian2/items/90ac367089b5617519b2
- https://qiita.com/hiyoko9t/items/6742e7dc121cf4cbef09
- https://www.hellocybernetics.tech/entry/2017/01/16/011113#最適化問題の簡単な例
