Osaka.Stan #4 Chapter 7 回帰分析の悩みどころ (7.1–7.5)

スライド概要

 『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4 2017.4.29)の発表資料です。Chapter 7の前半 (7.1-7.5) の内容(交互作用・対数変換・非線形回帰・多重共線性・交絡)について解説しています。
 12/9追記:このスライドの紹介記事をブログに投稿しました。コピペしやすいRとStanのコードも載せています。
URL: http://bayesmax.sblo.jp/article/181782207.html

※このスライドは,もともとSlidshareに公開していたものを2022/3/14にドクセルに移行したものです。

profile-image

Hiroyuki Muto

@mutopsy

作者について:

大学で研究と教育をしている小さな生き物です。心理学の科学的方法(数理&統計モデリング・実験法・心理測定論・仮説検定・ベイズ統計学・再現性と信用性の向上・科学哲学)とその実践(特に知覚・認知・数理心理学)に関心があります。

スライド一覧
シェア
埋め込む»CMSなどでJSが使えない場合

公開日

2017-04-30 12:10:00

各ページのテキスト

1. 01/53 『StanとRでベイズ統計モデリング』読書会 (Osaka.Stan #4) 2017年4月29日 Chapter 7 (7.1–7.5) 回帰分析の悩みどころ (前半) 大阪大学大学院人間科学研究科D2・日本学術振興会 武藤 拓之 (Hiroyuki Muto) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

2. 02/53 この資料について  『StanとRでベイズ統計モデリング』(通称 「アヒル本」)の,Chapter7の前半 (7.1– 7.5, pp.103–113) について解説します。  本に書かれていない内容も多く含みます。  このスライドの文責は武藤にあります。 間違いがございましたらご指摘願います。 この資料の一部のスライドで, きたがわさんが作成された「統 計を使う人のためのスタンプ」の イラストを使わせて頂きました。 武藤のお気に入りのLINEスタ ンプです。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

3. 03/53 自己紹介  武藤 拓之 (むとう ひろゆき) • 大阪大学大学院人間科学研究科D2  研究分野 • 認知心理学 (e.g., 空間認知,顔認知,言語理解)  よく分析するデータ • 反応時間,正答率  R歴 • 約3年  ベイズ歴 • 勉強:約3年前から • 実践:ほぼゼロ (つまりペーパーベイジアン) Twitter: @mutopsy 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

4. 04/53 7.1 交互作用 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

5. 05/53 交互作用とは  交互作用 (interaction) • ある説明変数の効果が, 別の説明変数の値によって変化すること。 • モデル式では, 「回帰分析において説明変数同士の掛け算の項を考慮す ること (p.103)」 ※掛け算でなくても良いが,掛け算が最も頻繁に使われる。  交互作用の例 • ある薬は成人には有効だが未成年には害をなす。 • 真珠を人にあげると喜ばれるが,豚にあげても喜ばれない。 • 「※ただしイケメンに限る」 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

6. 06/53 交互作用項を含まないモデル  男性の「魅力」を「容姿」と「年収」で説明するモデル  魅力:1 (低魅力)から10 (高魅力) の10段階評価  容姿:1 (イケメン) か0 (非イケメン) かの2値変数  年収:単位は万  架空データを,交互作用項を含まないモデルで分析してみる。 μ[n] = b1 + b2Ikemen[n] + b3Nenshu[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N  まずはlm関数で分析してみる。(Stanコードも後述) ※清水先生の以下の記事に書かれている例を参考にしました。 重回帰分析で交互作用を検討する<http://norimune.net/1733> 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

7. 07/53 交互作用項を含まないモデル_結果  lm()の結果:  年収が100万円上がると平均魅力が0.44上がる。  イケメンは非イケメンよりも平均魅力が5.35高い。  この解釈は妥当?  年収の効果は容姿とは無関係に認められるのか?  「年収の高いイケメンは年収の低いイケメンよりもモテる」 と言える? 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

8. 08/53 交互作用項を含むモデル  先ほどのモデルに交互作用項を追加。 μ[n] = b1 + b2Ikemen[n] + b3Nenshu[n] + b4Ikemen[n]Nenshu[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N  この式は次のように変形できる。 μ[n] = b1 + b2Ikemen[n] + (b3 + b4Ikemen[n])Nenshu[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N 年収の効果は,傾きb3だけでなく, イケメンか否かによって変わる,という仮定。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

9. 09/53 交互作用項を含むモデル_結果  lm()の結果:  交互作用が有意 =年収が魅力に与える影響はイケメンかどうかで変わる。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

10. 10/53 交互作用項を含むモデル_解釈 イケメン 非イケメン  データを眺めてみる。  イケメン: 年収に関係なく 魅力が高い  非イケメン: 年収が高いほど 魅力も高い ※交互作用の解釈を より定量的に行う方法は後述。 恋愛はお金じゃない。※ただしイケメンに限る ※あくまで架空のデータ上での話です。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

11. [beta]

11/53

Stanでやってみる_交互作用なしモデル
 交互作用項を含まないモデル(Chapter 5の復習)
data {
int N;
int<lower=1, upper=10> Miryoku[N];
int<lower=0, upper=1> Ikemen[N];
real<lower=0> Nenshu[N];
}
parameters{
real b[3];
real<lower=0> sigma;
}
model{
for (n in 1:N){
Miryoku[n] ~ normal(b[1] + b[2]*Ikemen[n] + b[3]*Nenshu[n], sigma);
}
}

交互作用

対数をとるか否か

非線形の関係

多重共線性

交絡

12. 12/53 lm()とStanの比較_交互作用なしモデル μ[n] = b1 + b2Ikemen[n] + b3Nenshu[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N  lm()の結果:  Stanの結果: 同様の結果。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

13. [beta]

13/53

Stanでやってみる_交互作用ありモデル
 交互作用項を含むモデル(青字の部分が相違点)
data {
int N;
int<lower=1, upper=10> Miryoku[N];
int<lower=0, upper=1> Ikemen[N];
real<lower=0> Nenshu[N];
}
parameters{
real b[4];
real<lower=0> sigma;
}
model{
for (n in 1:N){
Miryoku[n] ~ normal(b[1] + b[2]*Ikemen[n] + b[3]*Nenshu[n]
+ b[4]*Ikemen[n]*Nenshu[n], sigma);
}
}

交互作用

対数をとるか否か

非線形の関係

多重共線性

交互作用項 (2つ
の説明変数の積)
をモデルに追加

交絡

14. 14/53 lm()とStanの比較_交互作用ありモデル μ[n] = b1 + b2Ikemen[n] + b3Nenshu[n] + b4Ikemen[n]Nenshu[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N  lm()の結果:  Stanの結果: 同様の結果。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

15. 15/53 交互作用を解釈するために μ[n] = b1 + b2Ikemen[n] + b3Nenshu[n] + b4Ikemen[n]Nenshu[n] = (b2 + b4 Nenshu[n])Ikemen[n]+ b1 + b3Nenshu[n] Ikemen = 0の時に0になる部分  このモデル式から次のことが言える:  b1 :Ikemen = 0の時の  b3 :  b1 + b2 :Ikemen = 1の時の  b3 + b4 :  Stanでこれらの値を推定してみる。 交互作用 対数をとるか否か 非線形の関係 年収の切片 年収の傾き 年収の切片 年収の傾き 多重共線性 交絡

16. 16/53 Stanでパラメータの和を推定_モデル  transformed parametersブロックを追加 data {(省略)} parameters{(省略)} transformed parameters{ real Intrcpt_I0; real Slope_I0; real Intrcpt_I1; real Slope_I1; Intrcpt_I0 = b[1]; Slope_I0 = b[3]; Intrcpt_I1 = b[1] + b[2]; Slope_I1 = b[3] + b[4]; } model{(省略)} ※分かりやすさを優先してあえて冗長に書いています。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

17. 17/53 Stanでパラメータの和を推定_結果 年収が魅力に与える効果(切片と傾き)を, イケメンの場合と非イケメンの場合とに分けて推定できた。 さらにtransformed parameterを追加すれば, 「イケメンと非イケメンで傾きの差がどのくらいか」等も推定できる。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

18. 18/53 ダミー変数を用いた交互作用項  3水準以上から成るカテゴリカル変数を 説明変数とするときの交互作用項を考える  例えば,学生時代の所属クラブ。  カテゴリーの数だけ,2値のダミー変数を作成。 (コーディングの方法によっては「カテゴリー数 – 1」個のダミー変数で十分。) (b3 + b4 C1[n] + b5 C2[n] + b6 C3[n] + b7 C4[n] )Nenshu [n] Cj[n] = 0 (nがjに所属していないとき) 1 (nがjに所属しているとき)  特定のカテゴリに所属している人数が少ないと 推定がうまくいかない。 →ゆるい制約を含めた階層モデルを使う (8章) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

19. 19/53 交互作用項を含めるか否か  交互作用の悩みどころ  解釈が難しくなりがち。  特に,連続変量同士の交互作用や 3つ以上の変数間の交互作用を見る場合。  説明変数が多いと組み合わせが膨大になる。  どんな時に交互作用項を入れるか  交互作用そのものに関心がある場合 (交互作用が「ない(小さい)」ことを主張したい場合を含む)  データを眺めて明らかに交互作用が確認できる場合  背景知識から交互作用の存在が予想できる場合 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

20. 20/53 7.2 対数をとるか否か 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

21. 21/53 変数変換の例  ローデータの値を変換して分析に用いることがある。 (例)  線形変換 n = 1, …, N X’[n] = aX[n] + b  対数変換(非線形変換) n = 1, …, N X’[n] = logaX[n]  逆数変換(非線形変換) X’[n] = 1/X[n] 交互作用 対数をとるか否か n = 1, …, N 非線形の関係 多重共線性 交絡

22. 22/53 非線形変換による分布の変化 非線形変換の例: logX = {3.97, 4.16, …} X = {53.05, 63.76, …} 1/X = {.019, .016, …}  データの分布を正規分布に近づけるために 対数変換や逆数変換が行われることがある。  変数変換すると解釈が難しくなる場合が多い。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

23. 23/53 非線形変換の影響の例 (大久保, 2011) 1. 元の変数が持つ差や比の情報が失われる。 X1 1.000 0.000 1.000 Xn logXn 1/Xn X2 2.000 0.301 0.500 X2−X1 1.000 0.301 −0.500 Y1 11.000 1.041 0.091 Y2 12.000 1.079 0.083 Y2−Y1 1.000 0.038 −0.008 値が大きいほど差が過小評価 1. ローデータには存在しなかった「差の差」や「差の比」が検出される。 Xn logXn 1/Xn |(X2−X1)−(Y2−Y1)| 0.000 0.263 0.492 (X2−X1)/(Y2−Y1) 1.000 7.920 62.500 交互作用項の推定結果が歪む危険性 大久保 街亜 (2011). 反応時間分析における外れ値の処理 専修人間科学論集心理学篇 1, 81-89. 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

24. 24/53 対数変換が有用なケース(1)  「Aが〇〇倍になるとBが××倍になる」と仮定(解釈)したいとき 1. 説明変数と応答変数に元の値を使ったモデル Y[n] = b1 + b2X[n] + e e ~ Normal (0, σ) n = 1, …, N →X[n]がk増えるとY[n]の平均値がkb2だけ増える。 1. 説明変数と応答変数を対数変換したモデル log10(Y[n]) = b1 + b2log10(X[n]) + e e ~ Normal (0, σ) n = 1, …, N →X[n]がk倍になるとY[n]の最頻値が{10^b2log10(k)}倍になる。 ※Y[n]は対数正規分布に従うためY[n]の平均値は最頻値と一致しない。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

25. 25/53 参考:なぜ「〇〇倍」と解釈できるかの説明 元のモデル式は, log10(Y[n]) = b1 + b2log10(X[n]) + e n = 1, …, N ここで,X[n] = aの時とX[n] = kaの時, log10(𝑦0) = b1 + b2log10(a) ・・・・・・① log10(𝑦1) = b1 + b2log10(ka) ・・・・・・② ②を変形して, log10(𝑦1) = b1 + b2log10(a) + b2log10(k) = log10(𝑦0) + b2log10(k) (∵①) したがって,𝑦1の最頻値𝑦ෝ1は, 𝑦ෝ1 = 10^{log10(𝑦ෝ0) + b2log10(k)} = 10^log10(𝑦ෝ0) × 10^b2log10(k) = 𝑦ෝ0× 10^b2log10(k) (∵②) ∴X[n]がk倍になるとX[n]の最頻値は{10^b2log10(k)} 倍になる。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

26. 26/53 賃貸データで結果の比較 (1) 元のデータの散布図と予測分布 これらの値に 結果が引きずられる (頑健性が低い) 予測区間に負の値を含む 対数変換したデータの散布図と予測分布 薄い灰帯:80%予測区間 濃い灰帯:50%予測区間 黒線:中央値 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

27. 27/53 賃貸データで結果の比較 (2) 元のデータの実測値と予測値のプロットおよびノイズの分布 正規分布と乖離 予測区間に負の値を含む 対数変換したデータの実測値と予測値のプロットおよびノイズの分布 予測区間が広い 交互作用 対数をとるか否か 非線形の関係 エラーバーは80%予測区間 多重共線性 交絡

28. 28/53 対数変換が有用なケース(2)  倍々で増える仕組みが想定される場合 e.g., 複利,がん細胞の分裂 例えば次のようなモデルを想定: Y[n] = b1 + b2×2^X[n] + e n = 1, …, N (e.g., 時間がXだけ経過した後の細胞の数) このままだとb1もb2も解釈しづらい。 説明変数と応答変数を対数変換 (底は2) すると…… log2(Y[n]) = b1 + b2×2^log2X[n] + e = b1 + b2X[n] + e n = 1, …, N =X[n]が1増えるとY[n]の最頻値が(2^b2)倍になる 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

29. 29/53 変数変換のまとめ  解釈が難しくなる場合には変数変換は避けるのがベター。  むりやり正規分布に近づけるのではなく, データの分布に適したモデルを選択する。  対数変換したほうが解釈しやすい場合もある。  「Aが〇〇倍になるとBが××倍になる」と仮定したいとき  倍々で増える仕組みが想定されるとき  解釈しやすいモデルが「正しい」とは限らない。  あくまでもその仮定を選んだというだけ。(Chapter 3, p.22参照)  変数変換とモデリングは表裏一体?  モデルに合わせて変数変換するのではなく, 変数変換のメカニズムを含むモデルを構築できる。 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

30. 30/53 7.3 非線形の関係 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

31. 31/53 線形/非線形な相関関係  いろいろな相関関係 (rはピアソンの積率相関係数=線形の関係性の強さ) r = .71 r = −.03 r = −.04 r = .04  よくある線形モデルではうまく説明できない相関関係もある。  非線形な関連性へのアプローチ: 1. 非線形を生み出すメカニズムをモデルに反映 2. シンプルで解釈しやすい曲線の当てはめ (e.g., n次多項式曲線,三角関数の曲線) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

32. 32/53 非線形な関係の例 パフォーマンス  スポーツ場面における緊張感とパフォーマンスの関係 高い 低い リラックス 緊張 緊張の程度  薬剤投与からの経過時間と血中濃度の関係 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

33. [beta]

33/53

二次曲線の当てはめ_モデル
μ[n] = a + b(X[n]−x0)2
Y[n] ~ Normal (μ[n], σ)

n = 1, …, N
n = 1, …, N

data {
int N;
real X[N];
real Y[N];
}
parameters{
real a;
real b;
real x0;
real<lower=0> s_Y;
}

事前知識を用いて適宜制約を課す。例えば二次
曲線が上に凸であることが事前知識から明らかな場
合にはbの上限を0とする。制約がないと収束しない
場合があるので注意。

model{
for (n in 1:N){
Y[n] ~ normal(a + b*(X[n]-x0)^2, s_Y);
}
} 交互作用

対数をとるか否か

非線形の関係

多重共線性

交絡

34. 34/53 二次曲線の当てはめ_結果 μ[n] = a + b(X[n]−x0)2 Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N パフォーマンス 高い 低い リラックス 緊張 緊張の程度 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

35. [beta]

35/53

時系列データへの指数曲線の当てはめ_モデル
μ[n] = a{1 − exp(− bX[n])}
Y[n] ~ Normal (μ[n], σ)

n = 1, …, N
n = 1, …, N

data {
int N;
real X[N];
real Y[N];
}
parameters {
real<lower=0, upper=100> a;
real<lower=0, upper=5> b;
real<lower=0> s_Y;
}

事前知識を用いて適宜制約を課す。

model {
for (n in 1:N)
Y[n] ~ normal(a*(1 - exp(-b*X[n])), s_Y);
}

交互作用

対数をとるか否か

非線形の関係

多重共線性

交絡

36. 36/53 時系列データへの指数曲線の当てはめ_結果 μ[n] = a{1 − exp(− bX[n])} Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N a:頭打ちの大きさを決めるパラメータ b:頭打ちになるまでの時間を決めるパラメータ 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

37. 37/53 パラメータに制約を課さなかった場合 data {(省略)} parameters { real a; real b; real<lower=0> s_Y; } パラメータの範囲を指定しないと…… model {(省略)} 収束せず 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

38. 38/53 7.4 多重共線性 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

39. 39/53 多重共線性とは  多重共線性 (multicolinearity; マルチコ) • 回帰分析において,説明変数間の相関が高いと……  回帰係数の標準誤差が大きくなる  回帰係数の符号が直感に反する結果となり, 解釈が困難となる場合がある。  回帰係数が収束せず,うまく推定できないことがある。 ※モデルによる予測に関心があり,回帰係数の解釈をしないのであれば,多重 共線性は必ずしも問題とならない。  多重共線性がある場合の例 TOEICスコア 高い正の相関 年収 英検のグレード 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

40. 40/53 モデル式から見た多重共線性の説明  重回帰分析のモデル式 (説明変数:A[n] と B[n] ) μ[n] = b1 + b2A[n] + b3B[n] n = 1, …, N Y[n] ~ Normal (μ[n], σ) n = 1, …, N  説明変数A[n]とB[n]の相関が高い時の近似式 A[n] ≅ B[n] のとき, μ[n] = b1 + (b2 + b3) A[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N  この時,例えばb2 + b3 = 3が真の値の時, (b2, b3) の組み合わせは一意に決まらない。 e.g., (1, 2), (−5, 8), (123.45, −120.45) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

41. 41/53 Rのlm関数でシミュレーション  多重共線性がある時とない時で 結果がどのように変わるのかをシミュレーションしてみる。  古典的な重回帰分析で検証。  説明変数はA・Bの2つとする。  ρAB (母相関係数) を変化させてみる。 μ[n] = b1 + b2A[n] + b3B[n] Y[n] ~ Normal (μ[n], σ) n = 1, …, N n = 1, …, N ※Stanで同様のシミュレーションを行ってもほぼ同じ結果が得られたため,Stanの例は 省略。今回のような簡単なモデルであれば,収束しないということはなさそう? 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

42. [beta]

42/53

Rのlm関数でシミュレーション_コード
##パラメータ等の指定##
rAB <- 0.9
#説明変数間の母相関係数。この値をいろいろ変えてみる。
rAY <- 0.5
#AとYの母相関係数
rBY <- 0.6
#BとYの母相関係数
n <- 100
#サンプルサイズ
Rep <- 1000
#サンプリング回数
##分散・共分散行列の作成##
Mat <- matrix(c(1, rAB, rAY, rAB, 1, rBY, rAY, rBY, 1), ncol=3)
##N = nのデータセットをRep回生成し,それぞれに対して重回帰分析##
Res_beta <- data.frame(b2 = 1:n, b3 = 1:n)
for (i in 1:Rep){
d <- as.data.frame(mvrnorm(n= n, mu= c(0, 0, 0), Sigma= Mat, empirical= FALSE))
colnames(d) <- c("A","B","Y")
reg <- lm(Y ~ A + B, data = d)
Res_beta[i,] <- reg$coefficients[2:3]
}
Res_beta
#Rep回分の偏回帰係数 (b2とb3) が格納されたデータフレーム。

交互作用

対数をとるか否か

非線形の関係

多重共線性

交絡

43. 43/53 Rのlm関数でシミュレーション_結果 ρAB= .90のとき(多重共線性あり) ρAB= .20のとき(多重共線性なし) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

44. 44/53 Rのlm関数でシミュレーション_結果 ρAB= .90のとき(多重共線性あり) 多重共線性があると…… ρAB= .20のとき(多重共線性なし)  推定値のばらつきが大きい  符号が逆転傾向 e.g., TOEICスコアが高いと年収が上がり, 英検のグレードが高いと年収が下がる? 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

45. 45/53 多重共線性の問題を回避するには 1. 説明変数間の相関が背景知識から明らかな場合, 片方を捨てるのが簡単。  |r| > .80~.95  VIF > 10 ※VIF (variance inflation factor) = 1/(1-r2)  どの変数を捨てるかの判断は慎重に リサーチクエスチョンは何? 興味のある情報を最も多く反映した変数はどれ? 2. 両方の説明変数の情報を含む別のモデルを考案する。 • 合成得点の算出 • 潜在変数を仮定したモデルの使用 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

46. 46/53 参考:潜在変数を仮定したモデルの例 TOEICスコア 英語力 英検のグレード 潜在変数 (直接観測されない変数) A社独自の英語 テストのスコア 年収 ※このモデルは,3種類の英語のテストから推定された英語力が年収に影響を与える モデルを表しているが,実質的には因子数1の因子分析モデルと等価。 (年収変数の位置を右側に移動すると分かりやすい。) 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

47. 47/53 7.5 交絡 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

48. 48/53 交絡とは  交絡 (confounding) • 「モデルの外側に応答変数と説明変数の両方に影響を与 える変数が存在すること (p.112)」 • 体重が重い小学生ほど足が速い? + 足の速さ 体重 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

49. 49/53 交絡とは  交絡 (confounding) • 「モデルの外側に応答変数と説明変数の両方に影響を与 える変数が存在すること (p.112)」 • 体重が重い小学生ほど足が速い? 足の速さ 隠れた変数 体重 − + + 年齢 • 年齢が増えると体重が増える • 年齢が増えると筋力が増して足が速くなる • 体重が増えすぎると走る速さは遅くなる 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

50. 50/53 何が交絡してる?  発表者の手元にあるデータ • 身長が高い人ほど方向感覚が優れている。 • 背が高いとより遠くが見渡せるから? 方向感覚 交互作用 対数をとるか否か + 非線形の関係 身長 多重共線性 交絡

51. 51/53 何が交絡してる?  発表者の手元にあるデータ • 身長が高い人ほど方向感覚が優れている。 • 背が高いとより遠くが見渡せるから? 方向感覚 + 身長 隠れた変数 性別 • 男性の方が女性よりも平均身長が高い • 男性の方が女性よりも平均的に空間把握能力が高い 交互作用 対数をとるか否か 非線形の関係 多重共線性 交絡

52. 52/53 パス解析のすすめ  パス解析 (path analysis) 足の速さ • 「複数の回帰を組み合わせて 変数間の因果関係を模索する解析 (p.113)」 • 交絡変数を考慮できる。 • パス図を描くと視覚的に理解しやすい。  パス解析のコツ • 解釈しやすいシンプルな仮定を優先すると良い。 (複雑なモデルは解釈しにくい) • 利用できる背景知識をモデルに組み込む。 • モデルの改善には試行錯誤が欠かせない。 交互作用 対数をとるか否か 非線形の関係 多重共線性 体重 年齢 交絡

53. 53/53 そうだ ベイズ、しよう。