Lassoの進化、Group Lassoとは

2019.02.21

機械学習

こんにちは。 Lassoでスパース、スパースと言ってましたが実際はスパース推定という言葉がよく使われます。これについての説明を軽くしてからGroup lassoの紹介をします。

スパース推定とは

スパースは”疎”を意味します。スパース推定とはどのパラメータが0になるかを推定すること。つまり、データの本質がわかります。直感的には次の図から

もう少し実用的な例は？

右の入力から左の出力を考えるLassoモデルを考えると

のようにアレルゲン反応のスパース推定ができます。つまり、スパース推定により関与しないパラメータがわかります。

Group Lassoとは

グループラッソとは

「潰れる変数がグループになったLassoモデル」

先ほどのアレルゲンを例にとると例えば、ヒノキなどの個体単位ではなく「花粉」というグループ単位でスパース性が検証できるモデルのことです。Lassoはの正規化項は次のものでした。

$\Omega_{Lasso}(\beta) = \sum_{i=1}^{n} |\beta_i|$

Group Lassoの正規化項は次で定義されます

$\Omega_{Group}(\beta) = \sum_{g=1}^{G} \sqrt[]{p_g} |\beta_{g}|_2$

ここで $g$ はg番目のグループを表すindex。(ただし、 $g = 1,\cdots, G$ 、 $p_g$ はグループgの大きさ) 前述通りGroup Lassoでは特徴をグループ化します。よって、事前に類似の傾向がありそうな特徴の情報を考慮します。なるほど、と思った方と、ん？、と思った方がいると思います。

グループ単位で本当に潰れるのか？

仮にそうならどうやって変数を扱うのか？

これは図を用いてチェックしましょう。

Group Lassoの解

参考文献の論文に従い、解説します。

まず $J$ 個の変数からなるもっとも一般的な回帰問題を考えます

$Y = \sum_{j=1}^{J} X_j \beta_j + \epsilon$

Yは $n\times 1$ ベクトル、 $\epsilon \sim \mathcal{N}(0, \sigma^2I)$ 、 $X_j$ は $j$ 番目のデータに対応した $n\times p_j$ 行列で $\beta_j$ はサイズ $p_j \times 1: j=1,\cdots,J$ の係数からなるベクトルとする。さらに各 $X_j$ は直交行列であると仮定する。すなはち $X_j^t X_j = I_{p_j}; j=1,\cdots ,J$ とする。さらに、 $X = (X_1, X_2, \cdots, X_J)$ 、 $\beta = (\beta_1^t, \beta_2^t, \cdots, \beta_J^t)^t$ とすると上式は $Y=X\beta + \epsilon$ かける。

長ったらしく書きましたが要は「グループの大きさが各 $p_i$ のサイズ」です。なので $p_1 = p_2 = \cdots = p_J = 1$ を考えるとこれはLassoそのものとなります。

$\eta \in \mathbb{R}^d, d \geq 1$ と $d \times d$ の正定値対称行列 $K$ に対して次を定める。

$|\eta|_K = (\eta^t K \eta)^{1/2}$

ただし、 $|\eta| = |\eta|_{I_d}$ とする。正定値行列 $K_1,\cdots,K_J$ が与えられた時、Group Lasso回帰では次の解を考える。ただし $\lambda \geq 0$

$\frac{1}{2} | Y - \sum_{j=1}^{J} X_j \beta_j |^2 + \lambda \sum_{j=1}^{J} |\beta_j|_{K_j}$

Bakin(1999)はこれをグループ変数によるLassoの拡張版として提案しました。

ここも特に気にする必要はなく、大切なのは正定値対称行列 $K$ により変数に「重み」が掛かっているところです。機械学習ではこのように変数に重みを加える動作をよくします。一例として – マハラノビス距離(Mahalanobis distance) があります。僕たちが無意識に距離として使っているものはユークリッドノルムで $K=I$ 、つまり単位行列の時です。では先ほどの

「どうやってグループ単位で変数が潰れるのか？」