LASSO回帰_プレゼンテーション_数式画像付き

1.6K Views

June 12, 25

スライド概要

profile-image

AI・機械学習エンジニア兼ゲーマー、数学家、音楽家(演奏家) ①エンジニア  院卒後はしばらく非開発職だったが、2016年から某半導体メーカーで機械学習エンジニアとしてのキャリアをスタート。フリーランスに転向し、主にAI、MLや周辺技術の他、別のシステム開発にも携わる。 ②数学  某国立N大学理学部数学科卒業、同大学大学院M2修了。代数学のうち群論を主な研究テーマとする。 ③音楽  4歳からピアノを、15歳からヴィオラとヴァイオリンを始める。院卒後ベルリン芸術大学ディプロマコースに留学、ヴィオラを専攻。 生来病気がちだったためプロ活動を断念。その後様々な持病が悪化し車椅子生活を強いられ、現在は活動を休止中。 ④ゲーム  主にPCゲームをプレイ。上手くはない。頚椎ヘルニアの手術後しばらくは激しいゲームを控える予定。主なジャンルはFPS、TPS、麻雀、アクションなど。

Docswellを使いましょう

ダウンロード

関連スライド

各ページのテキスト
1.

LASSO回帰: 数学的な考察と その応用 ~LASSO回帰の理論と実 践的な応用を探る~ 2025.06.12 By アーベルようこ

2.

回帰分析の基礎 • 回帰分析は、説明変数 X から目的変数 y を予 測する手法 • 通常の線形回帰は以下の形をとる: 最小二乗法に似てますね…… 記号の意味: • - • • • • な変数(ここでは β)を求める - : 目的変数(サンプル i の値) - : サンプル i の説明変数ベクトル - β: 回帰係数ベクトル - n: サンプル数 : この式が最小になるよう ※ここで扱われる説明変数がベクトルであること に注意

3.

過学習と正則化 回帰分析の弱点: モデルが複雑すぎる(=変数が多くなる)と過学習に陥る →多変数になった時にすべての変数に同じ計算をすることになり、 変数の「重み」が全く考慮されないため(分析結果にほとんど影響しない変数も 結果に大きな影響を与える変数も同じように扱われる) 弱点の克服のためにどうするか? ・正則化 (Regularization) によって複雑さを抑制 ・パラメータの大きさに制約をかけることで汎化性能を向上 正則化には主に2種類ある → L1正則化とL2正則化 (L0正則化もあるが、組み合わせ最適化問題になり、計算コストが高くなるため あまり用いられない)

4.

LASSO回帰(L1正則化) LASSO = Least Absolute Shrinkage and Selection Operator (最小絶対収縮と選択演算子) の略 記号の意味: ノルム(罰則項、ペナルティ)ともいう↑ • - • • - λ: 正則化パラメータ(罰則の強さ) - 𝛽𝑗 : 各係数の2乗(L1ノルム) :この式が最小になるような変数(ここではβ)を求める 特徴: • - 一部係数をゼロにし、特徴選択を実現させることができる

5.

Ridge回帰(L2正則化) Ridgeは特に何の略でもない ridges = 尾根、畝、峰、峠などの意味 記号の意味: • - λ: 正則化パラメータ(罰則の強さ) • - 𝛽𝑗2 : 各係数の2乗(L2ノルム) 特徴: • - 係数はゼロにはならず、縮小される • - 多重共線性に強い ↑ノルム(罰則項)

6.

LASSO回帰 vs. Ridge回帰 ~比べてみよう! ほとんど同じ形だが、ノルム(罰則項)の形が少し違う 項目 正則化項(ペナルティ) LASSO回帰 Ridge回帰 p 𝑝 𝜆 ෍ 𝛽𝑗 𝜆 ෍ 𝛽𝑗2 𝑗=1 𝑗=1 特徴選択 可能(係数がゼロになる) 不可(すべての係数が0以外にな る) モデルの解釈性 高い(重要な変数だけ残る) やや低い(すべての変数が残る) 計算の安定性 不安定になりやすい 安定 適している状況 説明変数が多く、スパースな解が 望ましい場合 多重共線性がある場合や全変数を 使いたい場合 欠点 多重共線性があると不安定になる 変数選択ができない 幾何学的特徴(詳細はAppendix参 照) L1ノルム:ダイヤモンド型の制約 L2ノルム:円形の制約

7.

実践例データ セット(Python) 使用するデータについて • ・Boston Housing(ボストン住宅価格) • • 特徴量: 部屋数、犯罪率、学区など13変数 目的変数: 住宅価格の中央値 ※これは図なので、右上のボタンは使えません Pythonのライブラリの1 つ Scikit-learnの中に 線形回帰モデルがいくつ かあり、そのうちの1つに LASSO回帰モデルなどが あるので、Pythonで LASSO回帰モデルを使い たい場合は“sklearn”を呼 び出しさえすれば簡単に 使うことができる(左図2 行目) そのため、LASSO回帰、 Ridge回帰を使うときは Import sklearnや From sklearn.linear_modelから import Lassoやimport Ridgeを利用する

8.

実践例データ セット(R言語) 使用するデータについて • ・Boston Housing(ボストン住宅価格) • • 特徴量: 部屋数、犯罪率、学区など13変数 目的変数: 住宅価格の中央値 R言語のGlmnetというライ ブラリを使うと、LASSO回 帰、Ridge回帰、Elastic Net など、罰則項のある回帰モ デルを簡単に実装できる 罰則項の制御のためにalpha とlambdaという2つのパラ メータを使用する • • • alpha=1:L1正則化 alpha=0:L2正則化 0<alpha<1:Elastic Net Lambda:罰則の強さを制御 (大きいほど罰則が強い) ※これは図なので、右上のボタンは使えません

9.

応用と活用例 • • • • 医療: 遺伝子選択、疾患予測 経済: 市場指標から重要な要因抽出 テキスト分析: スパースデータの次元削減 IoT: センサーデータからの主要因抽出

10.

・LASSO回帰は特徴選択 が可能な強力な回帰手 法 ここまでの まとめ ・Ridge回帰との違いは 係数がゼロになり得る かどうか ・Python/Rで簡単に実装 でき、高次元データに 適する

11.

APPENDIX 本文で触れられなかった ことについて

12.

ノルム(罰則項)について Lpノルム(p∈ℝ,1≤p)の定義 ベクトル𝒳 を𝓃次元ベクトル としたときLpノルム 𝒳 𝓅 は次のように定義される p=1の場合 これをグラフにしたものが(次スライド)

13.

となる。 これは「マンハッタン距離」とも 呼ばれ、碁盤の目のような縦横垂直な道路しかないた め、縦or横移動のみ可、斜めには移動できない、平面 座標の考え方と同じになる 左図の青線、赤線、緑線はすべて長さ10で 等しくなる

14.

P=2の場合 ←ユークリッド距離 原点との距離が常に一定である 同心円状になる

15.

左図:2次元のパラメータ空間における、 LASSO回帰(上図)とRidge回帰(下図)の 制約領域を図示したもの 各パラメータは制約条件として、パラメー タ空間の領域を動いた中で、目的関数を最 小化する値を取る。 LASSO回帰では「角(かど)」が存在するこ とで、特定の係数を0にする地点を選びや すくなる それに対しRidge回帰の制約領域には角が 存在せず、0を選択することができないた め、0の項が存在しない

16.

Elastic Netについて Elastic Netのノルム(罰則化項) (α ∈ ℝ, 0≦𝛼≦1) これは、𝛼=1のときLASSO回帰、𝛼=0のときRidge回帰となる →どちらの性質も持っていることになる

17.

Elastic Netの実装 ※これは図なので、コードのコピペはできません……すみません

18.

※これは図なので、コードのコピペはできません……すみません