重回帰分析における多重共線性について

11.8K Views

March 26, 24

#[第9回大阪sas勉強会] #重回帰分析 #多重共線性 #VIF #SAS #変数選択

スライド概要

[第9回大阪SAS勉強会] 高田浩成

森岡裕[SASユーザー総会世話人]

@6484025

スライド一覧

SAS言語を中心として，解析業務担当者・プログラマなのコミュニティを活性化したいです

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

MMRM入門

[第8回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 46.9K

t検定の基礎(Studentのt検定とWelchのt検定)

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 32.6K

SASユーザー総会論文集 2024年

sasユーザー総会論文集 2024年

森岡裕[SASユーザー総会世話人] 26.8K

SASのコールルーチンは57個あるねん10分で全部説明するねん

[第9回大阪sas勉強会]

森岡裕[SASユーザー総会世話人] 25.1K

統計解析・確率論に関連するパラドックス

森岡裕[SASユーザー総会世話人] 24.2K

ゼロからでも始められるSASプログラミングのエッセンス

森岡裕[SASユーザー総会世話人] 19.2K

各ページのテキスト

2024年3月22日第9回大阪SAS勉強会重回帰分析における多重共線性について高田浩成 1 / 19

目的・概要 • • • • データサイエンス分野で知っておきたい概念をまとめたい重回帰分析は多変量解析（回帰・分類ともに含む）で最もポピュラーな手法と言える他の解析手法の考え方の基本ともなるそこで多重共線性について言及されることも多い • • • • 用語としては聞くことはあるが具体的な内容を学習したい定量的な指標が存在する SASにはこの指標を算出する機能があるこの現象について実装・確認して理解に役立てる Copyright©EPS All rights reserved. 3

重回帰分析の特徴 • 目的変数を複数の説明変数により線形モデルに適合させる ※単回帰分析のグラフイメージ ←最小二乗法により残差平方和を最小にする目的変数（2次元図示の便宜上） Y • 回帰式（β：回帰係数、βi：偏回帰係数、ε：切片）観測値単回帰式：Y = βX + ε 重回帰式：Y = β1X1 + β2X2 + … + βtXt + ε 残差 • 目的変数については種類によって解析名が異なる量的変数 → 線形回帰分析 2値変数 → ロジスティック回帰分析生存関数 → コックス回帰分析予測値 ε 回帰直線説明変数 Copyright©EPS All rights reserved. 説明変数が2つになると回帰平面となる X 6

重回帰分析の指標：自由度調整済み決定係数【単回帰分析】 • 決定係数R2(0～1)により当てはまりを評価（2変数による相関係数r(-1～1)の2乗でも可能） 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 𝑦𝑖 − 𝑦ത 共分散 𝑛 𝑟= 1 𝑛 1 𝑛 σ𝑖=1 𝑥𝑖 − 𝑥ҧ 2 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 標準偏差積 𝑛 𝑛 𝑛 σ ො𝑖 𝑖=1 𝑦𝑖 − 𝑦 𝟐 𝑹 =1− 𝑛 σ𝑖=1 𝑦𝑖 − 𝑦ത 2 残差平方和 2 全平方和 x,y：観測値 𝑥,ത ҧ y：平均値 yො ：予測値（回帰分析）【重回帰分析】 σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2 • さらに調整済み決定係数(adjusted R2, R*2)を算出する 𝐚𝐝𝐣𝐮𝐬𝐭𝐞𝐝 𝑹𝟐 = 1 − 𝑛𝑛 − 𝑘 − 1 2 σ𝑖=1 𝑦𝑖 − 𝑦ത （観測データ数による自由度と変数の数を考慮） 𝑛−1 • 説明変数が増えると見かけ上の精度が上がり（残差が減少）決定係数が増加しやすいため n：データの数 k：変数の数 Copyright©EPS All rights reserved. 7

多重共線性とは • Multicollinearity（マルチコリニアリティ、略称：マルチコ）「説明変数に相関関係がある」状態目的変数 vs 相関関係のある2変数目的変数共線性＝線形関係多重＝重なり合い Y 影響大 • 目的変数にとって多重共線性のある説明変数の影響が強くなる（重みが大きくなる） →独立した説明変数でなければ信頼性において危険 X2 説明変数2 • 回帰係数のバラツキが大きくなる →データが少し変わっただけで結果が大きく変わる • 重回帰分析において注意しなければいけない現象 →説明変数を適切に選択する必要がある Copyright©EPS All rights reserved. 相関：大説明変数1 X1 8

多重共線性の指標：分散拡大係数 • 多重共線性の深刻さを数値化・定量化 • VIF (Variance Inflation Factor) 1 𝑉𝐼𝐹𝑖 = 1 − 𝑅𝑖2 • • • • 全ての説明変数についての決定係数R2から導出（各説明変数に対しても重回帰分析を実施）一般的に10以上ならその説明変数に多重共線性があるとみなされる全ての説明変数のVIFが2未満であることが望ましい説明変数の削除や合成により対応 • SASのvifオプションで実装可能 • 相関行列の逆行列でも算出可能 • トレランス(Tolerance)： VIFの逆数(1-Ri2)、0.1以下なら多重共線性、tolオプション Copyright©EPS All rights reserved. 9

10.

11.

サンプルデータデータセットTEST N=10 ※重回帰分析を行うにあたって症例数は本来多くするべきだが便宜上今回は絞ることにした体重／BMIの分布 r = 0.89 【目的変数】 Y：何らかの検査値・スコア【説明変数】 AGE：年齢収縮期血圧／拡張期血圧の分布 HEIGHT：身長[m] r = 0.98 WEIGHT：体重[kg] BMI：体重[kg]÷(身長[m])2 SYSBP：収縮期血圧[mmHg] DIABP：拡張期血圧[mmHg] ※相関の強い説明変数を2組用意 Copyright©EPS All rights reserved. 11

12.

CORR(correlation)プロシジャによる相関分析 proc corr data=TEST ; var AGE HEIGHT WEIGHT BMI SYSBP DIABP ; run ; R > 0.5 p < 0.05 2つの量的変数の関連性を計る相関分析を説明変数に対して総当たりで行う →相関行列を一度に作成（1対1の関係が一覧できる）重回帰分析の前に説明変数の傾向を知る用意した通り2組の説明変数で有意に高い相関係数が確認されている Copyright©EPS All rights reserved. 12

13.

14.

REG(regression)プロシジャによる重回帰分析（VIF算出） proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / tol vif ; quit ; 目的変数重回帰式の切片・偏回帰係数 vifオプション（tolオプション）基本的にこちらの重回帰分析に併せて求める現状の決定係数相関関係のある説明変数2組ともに、VIFが大きく（基準の10 以上）、トレランスが小さい（基準の0.1以下）結果となった VIFは相関行列の逆行列の対角線とも一致 Copyright©EPS All rights reserved. 14

15.

重回帰分析の改善【手動】 ① VIFが大きい変数を削除 ② proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / vif ; quit ; ①のみを削除変数を削除した組の多重共線性が解消した Copyright©EPS All rights reserved. 改善された決定係数 ①と②を削除全ての多重共線性が解消した 15

16.

変数選択【自動】変数選択（特徴量選択）の手法として代表的なのは変数増減法（ステップワイズ法）変数追加(slentry=0.5) proc reg data=TEST ; model Y = AGE HEIGHT WEIGHT BMI SYSBP DIABP / vif selection=stepwise slentry=0.5 slstay=0.5 ; quit ; 変数維持 (slstay=0.5) 変数追加(slentry=0.5) 変数維持 (slstay=0.5) プロセス停止・終了 Copyright©EPS All rights reserved. それぞれ多重共線性は回避できている（変数選択の役割ではない）試験目的や臨床的意義から必要だと思われるものを自身で選択することが多い 16

17.

18.

まとめ • 重回帰分析において多重共線性を回避することは大前提である • 説明変数間の相関関係は多重共線性となる • 相関係数以外にも分散拡大係数(VIF)により実際の状況を確認する • VIFはCORRプロシジャ＋逆行列またはREGプロシジャにより算出できる • VIFの大きい説明変数を除外することで多重共線性を解消することができた • 細かな変数選択は状況や意義から最終的には自身で判断する回帰分析における重要な注意事項として念頭に置く Copyright©EPS All rights reserved. 18

19.

参考資料【統計】 • 『データサイエンティスト基本スキル84』、野村総合研究所データサイエンスラボ、日本経済新聞出版（2022年） • 『調査の実施とデータの分析』、日本統計学会、東京図書（2023年） • 『臨床研究から学ぶ逆引き統計』、岩城正宏・他、じほう（2023年）【SAS】 • 『統計を知らない人のためのSAS入門』、大橋渉、オーム社（2012年） • 『統計解析入門者のための医療統計学の基礎とSASの実践』、佐藤倫広、ムイスリ出版（2022年） • 『SAS/STAT® 13.2 User‘s Guide The REG Procedure』、 SAS Institute Inc.（2014年） Copyright©EPS All rights reserved. 19