「統計的因果推論」勉強会「1. 古典的問題意識」

402 Views

January 26, 23

スライド概要

クッキー

@CookieBox26

スライド一覧

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

学振特別研究員になるために～2025年度申請版

学振 dc1 dc2 jsps pd

大上雅史 840.2K

ZAZA株式会社_会社紹介

ZAZA株式会社 488.8K

StampFlyで学ぶマルチコプタ制御

伊藤恒平 385.3K

研究に使える便利なフリーソフト ImageJ

imagej 放射線技師

片山豊 369.8K

東京大学 3Dスキャン勉強会 - フォトグラメトリ」

フォトグラメトリ vr 3dデジタルアーカイブ

龍 lilea 315.9K

大規模言語モデルに追加学習で専門知識を教える試み (2023, arXiv:2312.03360)

Kan Hatakeyama 315.1K

各ページのテキスト

「統計的因果推論」勉強会「1. 古典的問題意識」 Chihiro Mihara テキスト宮川雅巳. 統計的因果推論― 回帰分析の新しい枠組み (シリーズ・予測と発見の科学 ). 朝倉書店. 2004. ※ 上のテキストの内容の勉強会の資料ですが、勝手な説明を加えている箇所もあります。テキストの解釈の誤りや勝手な説明の変なところは私に帰属します。

なぜ因果推論を導入するのか 2 1. 問題がない例 A君はたくさんの日本人の身長と体重のデータを集めた。体重と身長には正の相関があった。このことからA君は未知の日本人の体重だけ観測したとき身長をある程度予測できると考えた。 2. 問題がある例 A君はたくさんの日本人の身長と体重のデータを集めた。体重と身長には正の相関があった。このことからA君は体重を増やすことによって身長を伸ばそうと考えた。 1. は変数間の因果関係を抽出・利用しようとしていない。 2. は変数間の因果関係を抽出・利用しようとしている。純粋な統計的手法では因果関係を取り扱うことはできない。変数を勝手に選んで 2. のような判断をすることはできない。

なぜ因果推論を導入するのか 3 いくら何でもそんな間違いはしないのでは？体重を増やしても身長が伸びないのは定性的に明らかでは？定性的に因果があることがわかっている変数間の相関を利用すればよいのでは？通常の統計的手法でじゅうぶんなのでは？じゃあ定性的には因果がある例肥料を2倍にするとキャベツの収穫量が何倍になるか知りたい。収穫量に対する肥料の量の回帰係数が肥料の効果とは限らない。現実的にはむしろこのような定量的問題のため、因果をきちんと取り扱う必要がある。

なぜ変数を自由に選べないのか 4 何かの処理をされた患者が生存したか死亡したか観測したとする。男性生存死亡処理無 6 6 処理有 20 20 処理無も処理有もオッズ 1.0 。処理の有無で差はなし。同じデータ女性生存死亡生存死亡処理無 4 3 2 3 処理有 8 5 12 15 男性のオッズは 1.333 < 1.6 。女性のオッズは 0.666 < 0.8 。どちらも処理有のオッズが高い。 ※ 処理無のオッズ＝処理無の生存者数 / 処理無の死亡者数 ※ 処理有のオッズ＝処理有の生存者数 / 処理有の死亡者数男女で層別するかしないかで「処理は有効か」が変わってしまう。その変数で層別すべきかどうかは変数間の因果関係に依存する。

補足オッズ比（両群での生存しやすさの比）一般化すると、処理有のオッズ（処理有群での生存しやすさ）処理無のオッズ（処理無群での生存しやすさ） n 有,生,男 n 有,死,男 n 無,生,男 n 無,死,男 ≧ 1 ， n 有,生,女 n 有,死,女 n 無,生,女 n 無,死,女 5 ≧ 1 であるのに、 n 有,生,＋ n 有,死,＋ n 無,生,＋ n 無,死,＋ ≦ 1 となる現象をユール・シンプソンのパラドクスという。 ≧ と ≦ は逆向きでもいいがどちらかの不等号は成り立つとする。先の例では、処理の有無に関わらず女性の死亡率が元々大きいのに女性の方が処理有に割り付けられた割合が大きいために、処理の効果が打ち消されてしまっていると考えられる。

じゃあ何を変数に含めるべきなのか 6 交絡因子 ― 層別すべき変数。層別しないと擬似相関が生じる。交絡因子の要件 𝑍 × ③ ② or ① 𝑌 𝑋 例．出身県成績がよいうどんが好き ① 𝑌 に影響する。 ② 𝑋 と関連する。 ③ 𝑋 から影響されない。もしうどんが好きな人は成績がよい傾向があったとしても、香川県の人が成績がよいだけかもしれない。ので、出身県別に傾向を調べた方がよい。

変数を含めたらどうすればいいのか 7 例．マンテル・ヘンツェル検定北海道青森県 … 全国合格不合格合格不合格 … 合格不合格うどんが好き 𝑛1,1,1 𝑛1,2,1 𝑛1,1,2 𝑛1,2,2 … 𝑛1,1,+ 𝑛1,1,+ うどんが嫌い 𝑛2,1,1 𝑛2,2,1 𝑛2,1,2 𝑛2,2,2 … 𝑛1,1,+ 𝑛1,1,+ もしうどんが好きかどうかが合格／不合格に影響しないならば、ある県の「うどんが好きな人の数」と「合格した人の数」が所与の下での「うどんが好きでかつ合格した人の数」は超幾何分布にしたがう。 𝑃 𝑛1,1,𝑘 = 𝑛 1,+,𝑘 C 𝑛 1,1,𝑘 ∙ 𝑛 2,+,𝑘 C 𝑛 2,1,𝑘 𝑛 +,+,𝑘 C 𝑛 +,1,𝑘 𝑛1,+,𝑘 𝑛 +,1,𝑘 𝐸 𝑛1,1,𝑘 = 𝑛 +,+,𝑘 𝑛1,+,𝑘 𝑛 2,+,𝑘 𝑛 +,1,𝑘 𝑛 +,2,𝑘 𝑉 𝑛1,1,𝑘 = 2 𝑛 +,+,𝑘 (𝑛 +,+,𝑘 − 1)

変数を含めたらどうすればいいのか 8 任意の県でうどんが好きかどうかが合格／不合格に影響しないならば、全国で「うどんが好きでかつ合格した人の数」の期待値と分散は、 𝐾 𝐸 𝑛1,1,+ 𝑛1,+,𝑘 𝑛 +,1,𝑘 = ෍ 𝑛 +,+,𝑘 𝑘=1 𝐾 𝑉 𝑛1,1,+ 𝑛1,+,𝑘 𝑛 2,+,𝑘 𝑛 +,1,𝑘 𝑛 +,2,𝑘 = ෍ 2 𝑛 +,+,𝑘 (𝑛 +,+,𝑘 − 1) 𝑘=1 このとき以下の検定統計量が近似的に自由度1のカイ2乗分布にしたがう。 𝑀𝐻 = 𝑛1,1,+ − 𝐸 𝑛1,1,+ 2 𝑉 𝑛1,1,+ • 𝐻0 ：母オッズ比が全ての県で1である。 • 𝐻1 ：母オッズ比が全ての県で共通であるが1ではない。 𝐻0 が棄却されたときの母オッズ比の推定量はMH推定量で与えられる。

補足 9 ちなみに、通常のピアソン適合度検定をすると以下の 𝜒 2 が自由度 𝐾 のカイ2乗分布にしたがう。 • 𝐻0 ：母オッズ比が全ての県で1である。 • 𝐻1 ：母オッズ比が少なくともある県で1ではない。 𝑛 𝑖,+,𝑘 𝑛 +,𝑗,𝑘 = 𝑛 +,+,𝑘 𝐸 𝑛 𝑖,𝑗,𝑘 𝐾 2 2 𝜒2 = ෍ ෍ ෍ 𝑘=1 𝑖=1 𝑗=1 𝑛 𝑖,𝑗,𝑘 − 𝐸 𝑛 𝑖,𝑗,𝑘 2 𝑉 𝑛 𝑖,𝑗,𝑘 しかし、上の 𝐻0 が棄却されても「うどんが好きかどうか」の「合格するかどうか」への効果が支持されたわけではない。まとめ • 「うどん好きか」の「合格するか」への効果は県別にみないと駄目。 • どの県でもうどんの効果がないと駄目なのでそれ用の検定をする。

10.

まとめ 10 データから変数間の因果関係を評価したいときには、 • 勝手に選んだ変数で回帰してはいけない。 • 因果関係がある変数であっても偏回帰係数の大きさをそのまま効果の大きさと考えることはできない。 • 必要な変数（交絡因子）を特定した上で、効果の有意性を判定し、効果の大きさを測る必要がある。 → 詳細は次章以降！ ‐ 2×2×𝑘 分割表に対する分析の例がマンテル・ヘンツェル検定。

「統計的因果推論」勉強会 「1. 古典的問題意識」