「統計的因果推論」勉強会 「1. 古典的問題意識」

179 Views

January 26, 23

スライド概要

シェア

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

「統計的因果推論」勉強会 「1. 古典的問題意識」 Chihiro Mihara テキスト 宮川雅巳. 統 計 的因果推論― 回 帰分 析 の新 し い枠 組 み (シリーズ・ 予測と発見の科学 ). 朝倉書店. 2004. ※ 上のテキストの内容の勉強会の資料ですが、勝手な説明を加えている箇所もあり ます。テキストの解釈の誤りや勝手な説明の変なところは私に帰属します。

2.

なぜ因果推論を導入するのか 2 1. 問題がない例 A君はたくさんの日本人の身長と体重のデータを集めた。体重 と身長には正の相関があった。このことからA君は未知の日本 人の体重だけ観測したとき身長をある程度予測できると考えた。 2. 問題がある例 A君はたくさんの日本人の身長と体重のデータを集めた。体重 と身長には正の相関があった。このことからA君は体重を増や すことによって身長を伸ばそうと考えた。 1. は変数間の因果関係を抽出・利用しようとしていない。 2. は変数間の因果関係を抽出・利用しようとしている。 純粋な統計的手法では因果関係を取り扱うことはできない。 変数を勝手に選んで 2. のような判断をすることはできない。

3.

なぜ因果推論を導入するのか 3 いくら何でもそんな間違いはしないのでは? 体重を増やしても身長が伸びないのは定性的 に明らかでは? 定性的に因果があることがわかっている変数 間の相関を利用すればよいのでは? 通常の統計的手法でじゅうぶんなのでは? じゃあ定性的には因果がある例 肥料を2倍にするとキャベツの収穫量が何倍になるか知りたい。 収穫量に対する肥料の量の回帰係数が肥料の効果とは限らない。 現実的にはむしろこのような定量的問題のため、因果をきちんと 取り扱う必要がある。

4.

なぜ変数を自由に選べないのか 4 何かの処理をされた患者が生存したか死亡したか観測したとする。 男性 生存 死亡 処理無 6 6 処理有 20 20 処理無も処理有も オッズ 1.0 。 処理の有無で差はなし。 同じ データ 女性 生存 死亡 生存 死亡 処理無 4 3 2 3 処理有 8 5 12 15 男性のオッズは 1.333 < 1.6 。 女性のオッズは 0.666 < 0.8 。 どちらも処理有のオッズが高い。 ※ 処理無のオッズ = 処理無の生存者数 / 処理無の死亡者数 ※ 処理有のオッズ = 処理有の生存者数 / 処理有の死亡者数 男女で層別するかしないかで「処理は有効か」が変わってしまう。 その変数で層別すべきかどうかは変数間の因果関係に依存する。

5.

補足 オッズ比(両群での生存しやすさの比) 一般化すると、 処理有のオッズ(処理有群での生存しやすさ) 処理無のオッズ(処理無群での生存しやすさ) n 有,生,男 n 有,死,男 n 無,生,男 n 無,死,男 ≧ 1 , n 有,生,女 n 有,死,女 n 無,生,女 n 無,死,女 5 ≧ 1 であるのに、 n 有,生,+ n 有,死,+ n 無,生,+ n 無,死,+ ≦ 1 となる現象をユール・シンプソンのパラドクスという。 ≧ と ≦ は逆向きでもいいがどちらかの不等号は成り立つとする。 先の例では、処理の有無に関わらず女性の死亡率が元々大きいのに女性 の方が処理有に割り付けられた割合が大きいために、処理の効果が打ち 消されてしまっていると考えられる。

6.

じゃあ何を変数に含めるべきなのか 6 交絡因子 ― 層別すべき変数。層別しないと擬似相関が生じる。 交絡因子の要件 𝑍 × ③ ② or ① 𝑌 𝑋 例. 出身県 成績が よい うどん が好き ① 𝑌 に影響する。 ② 𝑋 と関連する。 ③ 𝑋 から影響されない。 もしうどんが好きな人は成績 がよい傾向があったとしても、 香川県の人が成績がよいだけ かもしれない。ので、出身県 別に傾向を調べた方がよい。

7.

変数を含めたらどうすればいいのか 7 例.マンテル・ヘンツェル検定 北海道 青森県 … 全国 合格 不合格 合格 不合格 … 合格 不合格 うどんが好き 𝑛1,1,1 𝑛1,2,1 𝑛1,1,2 𝑛1,2,2 … 𝑛1,1,+ 𝑛1,1,+ うどんが嫌い 𝑛2,1,1 𝑛2,2,1 𝑛2,1,2 𝑛2,2,2 … 𝑛1,1,+ 𝑛1,1,+ もしうどんが好きかどうかが合格/不合格に影響しないならば、 ある県の「うどんが好きな人の数」と「合格した人の数」が所与の下 での「うどんが好きでかつ合格した人の数」は超幾何分布にしたがう。 𝑃 𝑛1,1,𝑘 = 𝑛 1,+,𝑘 C 𝑛 1,1,𝑘 ∙ 𝑛 2,+,𝑘 C 𝑛 2,1,𝑘 𝑛 +,+,𝑘 C 𝑛 +,1,𝑘 𝑛1,+,𝑘 𝑛 +,1,𝑘 𝐸 𝑛1,1,𝑘 = 𝑛 +,+,𝑘 𝑛1,+,𝑘 𝑛 2,+,𝑘 𝑛 +,1,𝑘 𝑛 +,2,𝑘 𝑉 𝑛1,1,𝑘 = 2 𝑛 +,+,𝑘 (𝑛 +,+,𝑘 − 1)

8.

変数を含めたらどうすればいいのか 8 任意の県でうどんが好きかどうかが合格/不合格に影響しないならば、 全国で「うどんが好きでかつ合格した人の数」の期待値と分散は、 𝐾 𝐸 𝑛1,1,+ 𝑛1,+,𝑘 𝑛 +,1,𝑘 = ෍ 𝑛 +,+,𝑘 𝑘=1 𝐾 𝑉 𝑛1,1,+ 𝑛1,+,𝑘 𝑛 2,+,𝑘 𝑛 +,1,𝑘 𝑛 +,2,𝑘 = ෍ 2 𝑛 +,+,𝑘 (𝑛 +,+,𝑘 − 1) 𝑘=1 このとき以下の検定統計量が近似的に自由度1のカイ2乗分布にしたがう。 𝑀𝐻 = 𝑛1,1,+ − 𝐸 𝑛1,1,+ 2 𝑉 𝑛1,1,+ • 𝐻0 : 母オッズ比が全ての県で1である。 • 𝐻1 : 母オッズ比が全ての県で共通であるが1ではない。 𝐻0 が棄却されたときの母オッズ比の推定量はMH推定量で与えられる。

9.

補足 9 ちなみに、通常のピアソン適合度検定をすると以下の 𝜒 2 が自由度 𝐾 のカイ2乗分布にしたがう。 • 𝐻0 : 母オッズ比が全ての県で1である。 • 𝐻1 : 母オッズ比が少なくともある県で1ではない。 𝑛 𝑖,+,𝑘 𝑛 +,𝑗,𝑘 = 𝑛 +,+,𝑘 𝐸 𝑛 𝑖,𝑗,𝑘 𝐾 2 2 𝜒2 = ෍ ෍ ෍ 𝑘=1 𝑖=1 𝑗=1 𝑛 𝑖,𝑗,𝑘 − 𝐸 𝑛 𝑖,𝑗,𝑘 2 𝑉 𝑛 𝑖,𝑗,𝑘 しかし、上の 𝐻0 が棄却されても「うどんが好きかどうか」の「合格 するかどうか」への効果が支持されたわけではない。 まとめ • 「うどん好きか」の「合格するか」への効果は県別にみないと駄目。 • どの県でもうどんの効果がないと駄目なのでそれ用の検定をする。

10.

まとめ 10 データから変数間の因果関係を評価したいときには、 • 勝手に選んだ変数で回帰してはいけない。 • 因果関係がある変数であっても偏回帰係数の大きさをそのまま 効果の大きさと考えることはできない。 • 必要な変数(交絡因子)を特定した上で、効果の有意性を判定 し、効果の大きさを測る必要がある。 → 詳細は次章以降! ‐ 2×2×𝑘 分割表に対する分析の例がマンテル・ヘンツェル検定。