初心者による初心者のための 「質的データの二変量解析」 奥村泰之 国立精神・神経医療研究センター 国立精神 神経医療研究センタ 精神保健研究所 社会精神保健研究部 公益社団法人日本心理学会 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会 第3回研究集会 究 2011/11/5 16:30~19:10 東京医科歯科大学
話題 Rによる質的データの二変量解析 (7 min) 質的データの二変量解析の基礎 (8 min) 質的データの二変量解析の留意事項 (14 min) 一流誌での報告事例 (0 min) 初心者向けの推薦文献 (1 min) 2
Rによる質的データの二変量解析 説明用データセット Aspirin Data (aspirin.csv) (aspirin csv) • アスピリンによる心筋梗塞の予防効果 ((N Engl g J Med 1988;; 318:262-264)) – – – – – 変数名 研究法 = 無作為化比較試験 (二重盲検法) 追跡期間 = 5年間 調査対象 = 健康な男性の内科医 独立変数 = アスピリン投与/プラセボ投与 従属変数 = 心筋梗塞の発症の有無 説明 コード 役割 trt 治療法 0 = プラセボ,1 = アスピリン 独立変数 mi 心筋梗塞の状況 0 = 未発症,1 = 発症 従属変数 Agresti A: An introduction to categorical data analysis (2nd ed.). Wiley, 2007 3
Rによる質的データの二変量解析 説明用データセット 二元分割表 4つの解釈例 治療法 プラセボ アスピリン 心筋梗塞 心筋梗塞 未発症 発症 10845 08 5 (98 (98.3%) 3%) 189 89 ((1.7%) %) 10933 (99.1%) 104 (0.9%) •プ プラセボ投与群と比較し ボ投与群と 較 (基準),アスピリン投与群の心筋 基準 ピ 投与群 心筋 梗塞の発症率 (基準外) は低い (1.7% vs 0.9%) • アスピリン投与群と比較し (基準),プラセボ投与群の心筋 (基準) プラセボ投与群の心筋 梗塞の発症率 (基準外) は高い (0.9% vs 1.7%) • プラセボ投与群と比較し (基準),アスピリン投与群の心筋 (基準) アスピリン投与群の心筋 梗塞の未発症率 (基準外) は高い (98.3% vs 99.1%) • アスピリン投与群と比較し (基準),プラセボ投与群の心筋 (基準) プラセボ投与群の心筋 梗塞の未発症率 (基準外) は低い (99.1% vs 98.3%) 4
Rによる質的データの二変量解析 分析の流れ ①データの読み込み ①デ タの読み込み ②従属変数と独立変数の基準の設定 ③二元分割表の作成 ④リスク差,リスク比,オッズ比の算出 5
Rによる質的データの二変量解析 ①データの読み込み 6
Rによる質的データの二変量解析 ②従属変数と独立変数の基準の設定 4つの解釈例のうち どれを採用するか? 4つの解釈例のうち,どれを採用するか? • プラセボ投与群と比較し (基準),アスピリン投与群の心筋 梗塞の発症率 (基準外) は低い ((1.7% % vss 0 0.9%) 9%) 因子型ベクトルに変換 7
Rによる質的データの二変量解析 ②従属変数と独立変数の基準の設定 levels(因子型ベクトル) ( ) • 因子型ベクトルの水準を確認する関数 – 水準の1番目が「基準」となる relevel(因子型ベクトル, ref=“基準となる水準名”) • 因子型ベクトルの基準を変更する関数 8
Rによる質的データの二変量解析 ③二元分割表の作成 xtabs(formula, ( , data)) • 分割表を作成する関数 – formula = ~ 独立変数 + 従属変数 – data = データフレーム 9
Rによる質的データの二変量解析 ③二元分割表の作成 p prop.table(x, p ( , margin=NULL) g ) • 分割表の比率を求める関数 – x = xtabs()の結果を保存したオブジェクト名 – margin » NULL = 要素を総数で割る » 1 = 各行の要素を行和で割る » 2 = 各列の要素を列和で割る 10
Rによる質的データの二変量解析 ④リスク差,リスク比,オッズ比の算出 ind.prop(formula, p p( , data,, lev.count=2,, ref.ind=1)) • 質的データの二変量解析の関数 – formula = 従属変数~独立変数 » チルダ[~]の左側に1つの従属変数の変数名 » チルダ[~]の右側に1つの独立変数の変数名 – data d t = データフレーム デ タ レ ム 11
Rによる質的データの二変量解析 ④リスク差,リスク比,オッズ比の算出 ind.prop(formula, p p( , data,, lev.count=2,, ref.ind=1)) • 質的データの二変量解析の関数 – lev.count » 1 = 従属変数の1番目の水準を基準外とする (数える) » 2 = 従属変数の2番目の水準を基準外とする (数える) – ref.ind fi d » 1 = 独立変数の1番目の水準を基準とする » 2 = 独立変数の2番目の水準を基準とする 12
Rによる質的データの二変量解析 ④リスク差,リスク比,オッズ比の算出 $risk.difference $ • リスク差 $risk.ratio $ • リスク比 $odds.ratio • オッズ比 13
話題 Rによる質的データの二変量解析 (7 min) 質的データの二変量解析の基礎 (8 min) 質的データの二変量解析の留意事項 (14 min) 一流誌での報告事例 (0 min) 初心者向けの推薦文献 (1 min) 14
質的データの二変量解析の基礎 独立変数と従属変数の尺度水準 1つの従属変数 • 質的変数 (2水準) – 死亡/生存,成功/失敗 1つの独立変数 • 質的変数 (2水準以上) – 治療群/プラセボ対照群,曝露群/非曝露群 15
質的データの二変量解析の基礎 主要な指標 リスク差 • Risk Difference (RD), Absolute Risk Reduction (ARR) リスク比 • Risk Ratio (RR), Relative Risk (RR) オ ズ比 オッズ比 • Odds Ratio (OR) 必要治療数 • Number Needed to Treat (NNT) などなど 16
質的データの二変量解析の基礎 リスク差の計算と記載 計算式 • 基準外の比率 (アスピリン投与群の発症率) – 基準の比率 (プラセボ投与群の発症率) – RD = 0.009 – 0.017 = –0.008 得点可能範囲 得点可能範囲 • –1 to +1 ( (各群の比率に依存) ) 治療法 プラセボ アスピリン 心筋梗塞 心筋梗塞 未発症 発症 10845 (98.3%) 189 (1.7%) 10933 (99.1%) (99 1%) 104 (0.9%) (0 9%) 17
質的データの二変量解析の基礎 リスク差の計算と記載 解釈 • +1≒基準よりも,基準外の方が比率が高い • 0 = 両群で差がない • –1≒基準よりも,基準外の方が比率が低い 記載例 • 心筋梗塞の発症率は,アスピリン投与群の方が,プラセボ投与 群よりも低かった (0.9% (0 9% vs 1.7%; 1 7%; RD RD, –0.8% 0 8% [95% CI CI, –1.1% 1 1% to –0.5%]) 0 5%])。 • 心筋梗塞の発症率は,アスピリン投与群は0.9%,プラセボ投与 群は1 7%であった (RD, 群は1.7%であった (RD –0.8% –0 8% [95% CI CI, –1.1% –1 1% to –0.5%]) –0 5%])。 18
質的データの二変量解析の基礎 リスク比の計算と記載 計算式 • 基準外の比率 (アスピリン投与群の発症率) / 基準の比率 (プラセボ投与群の発症率) – RR = 0.009/0.017 = 0.550 得点可能範囲 得点可能範囲 • 0 to +∞ 治療法 プラセボ アスピリン 心筋梗塞 心筋梗塞 未発症 発症 10845 (98.3%) 189 (1.7%) 10933 (99.1%) (99 1%) 104 (0.9%) (0 9%) 19
質的データの二変量解析の基礎 リスク比の計算と記載 解釈 • +∞≒基準より,基準外の方がリスク (比率) が高い • 1 = 両群で差がない • 0 ≒ 基準より,基準外の方がリスク (比率) が低い 解釈の補助 • 相対リスク減少率 (Relative Risk Reduction, RRR) • RRR = 100%× (RR – 1) – RR = 0.55; RRR = 100%×(0.53 – 1) = – 45% » 基準よりも45%リスクが減少 20
質的データの二変量解析の基礎 リスク比の計算と記載 記載例 • 心筋梗塞の発症リスクは,アスピリン投与群の方が,プラセボ 投与群よりも低かった (0.9% vs 1.7%; RR, 0.55 [95% CI, 0.43 to 0.70])。 • 心筋梗塞の発症リスクは,アスピリン投与群の方が45%低かっ た (RR, 0.55 [95% CI, 0.43 to 0.70])。 21
質的データの二変量解析の基礎 オッズ比の計算と記載 計算式 • [基準外の比率 (アスピリン投与群の発症率) / (1 – 基準外の比 率)]/[基準の比率 (プラセボ投与群の発症率) / (1 ( – 基準の比 率)] – (0.009/(1-0.009)) /(0.017/(1-0.017)) = 0.546 得点可能範囲 • 0 to +∞ 治療法 プラセボ アスピリン 心筋梗塞 心筋梗塞 未発症 発症 10845 (98.3%) 189 (1.7%) 10933 (99.1%) (99 1%) 104 (0.9%) (0 9%) 22
質的データの二変量解析の基礎 オッズ比の計算と記載 解釈 • +∞≒基準より,基準外の方がオッズ (比率) が高い • 1 = 両群で差がない • 0 ≒ 基準より,基準外の方がオッズ (比率) が低い 23
質的データの二変量解析の基礎 オッズ比の計算と記載 記載例 • 心筋梗塞の発症オッズは,アスピリン投与群の方が,プラセボ 投与群よりも低かった (0.9% vs 1.7%; OR, 0.55 [95% CI, 0.43 to 0.70])。 • 心筋梗塞の発症オッズは,アスピリン投与群の方が45%低かっ た (OR, 0.55 [95% CI, 0.43 to 0.69])。 24
話題 Rによる質的データの二変量解析 (7 min) 質的データの二変量解析の基礎 (8 min) 質的データの二変量解析の留意事項 (14 min) 一流誌での報告事例 (0 min) 初心者向けの推薦文献 (1 min) 25
質的データの二変量解析の留意事項 留意事項 ①リスク差,リスク比,オッズ比の相違 ①リスク差 リスク比 オッズ比の相違 ②「有意」 (p<.05) に特別の意味はない ③「意味のある差」の解釈はRDとNNT ④「統計的」 に「意味のある差」は定義不能 26
質的データの二変量解析の留意事項 ①リスク差,リスク比,オッズ比の相違 指標 リ ク差 リスク差 リスク比 オッズ比 研究法 前向き研究/ 無作為抽出 前向き研究/ 無作為抽出 全部 指標の 意味 易 研究間の 比較 難 易 難 難 易 Fleiss et al: The handbook of research synthesis and meta-analysis: pp.237-253, 2009. 27
質的データの二変量解析の留意事項 ②「有意」 (p < .05) に特別の意味はない リスク差の検定結果 • 心筋梗塞の発症率は,アスピリン投与群の方が,プラセボ 投与群よりも有意に低かった (0 (0.9% 9% vss 1.7%; %; RD,, –0.8% 0 8% [95% CI, –1.1% to –0.5%], p < .05)。 28
質的データの二変量解析の留意事項 ②「有意」 (p < .05) に特別の意味はない リスク差の検定 (有意とは) • 帰無仮説 (H0) : RD = 0% (母集団) • 対立仮説 (H1) : RD ≠ 0% (母集団) • 有意水準 (α): 5% (H0 が真であるときに誤ってH0を棄却する確率) • 検定結果: H0 vs H1 ((2値的な判断)) • 有意: H0を棄却 (H1を採択) 29
質的データの二変量解析の留意事項 ②「有意」 (p < .05) に特別の意味はない 検定の問題 • 帰無仮説 (H0) は厳密には常に誤り – 母集団においてRDが「正確にゼロ」になることは,ありえない 母集団においてRDが 正確にゼ 」になることは,ありえない • 標本サイズが大きいと必ず有意になる ( (標本サイズが小さいと必ず有意にならない) ) – 検定結果=効果量×標本サイズ 30
質的データの二変量解析の留意事項 ③「意味のある差」の解釈はRDとNNT 必要治療数 (Number Needed to Treat Treat, NNT) • 計算式: NNT = 1 / |RD| – RD = –0.0077; 0.0077; NNT = 1/| 1/|–0.0077| 0.0077| = 129.9 • 得点可能範囲: 1 to +∞ • 解釈 – +∞ = 両群で差がない – 1 ≒ 2群間の差が大きい 31
質的データの二変量解析の留意事項 ③「意味のある差」の解釈はRDとNNT 必要治療数 (Number Needed to Treat Treat, NNT) • NNT = 130の解釈 – プラセボよりも,1人余分に心筋梗塞の発症を予防するには,アスピリ ンにより130人を5年間治療する必要がある – プラセボではなくアスピリンにより130人を5年間治療するごとに,心筋 梗塞の発症を1人予防できる • 1人の心筋梗塞を予防するための費用 – – – – 計算式: NNT×費用 アスピリンの薬価: Bufferin (ライオン-エーザイ) = 6.10円/錠 薬剤費/5年: 6.10円/錠×365日×5年 = 11132.5円 予防費用 = (130人×11132.5円) = 1,447,225円 (5年間) 32
質的データの二変量解析の留意事項 ④「統計的」 に「意味のある差」は定義不能 NNTと臨床的意味の大きさは必ずしも関連しない 独立変数 アスピリン vs プラセボ シクロスポリン (抗生物質) vs 通常診療 心理療法 vs 通常診療 RD NNT 臨床的意味 の大きさ 0.8% 130 通常診療の 一環に 環に 臓器移植の拒絶反応 15.9% 6.3 画期的な打 開策と認知 32.3% 3.1 ほどほど 従属変数 心筋梗塞の発症 心理・社会的状態 心理 社会的状態 Kraemer et al: Biolo Psychiatry 59: 990-996, 2006. Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006. 33
質的データの二変量解析の留意事項 ④「統計的」 に「意味のある差」は定義不能 従属 独立変数の性質が臨床的意味の大きさと関連 従属・独立変数の性質が臨床的意味の大きさと関連 • 生命/生活への影響が大きい従属変数 – 小さな差異 (大きなNNT) でも臨床的意味が大きい • 安価/安全な独立変数 – 小さな差異 ((大きなNNT)) でも臨床的意味が大きい • 生命/生活への影響が小さい従属変数 – 大きな差異 (小さなNNT) でも臨床的意味が小さい • 高価/危険な独立変数 – 大きな差異 (小さなNNT) でも臨床的意味が小さい 「意味のある差」の定義は領域固有の主観が不可欠 Kraemer et al: Biolo Psychiatry 59: 990-996, 2006. Rosentahl et al: Contrasts and effect sizes in behavioral research. Cambridge, 2006. 34
話題 Rによる質的データの二変量解析 (7 min) 質的データの二変量解析の基礎 (8 min) 質的データの二変量解析の留意事項 (14 min) 一流誌での報告事例 (0 min) 初心者向けの推薦文献 (1 min) 35
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 概要 • • • • • 研究法 = 無作為化比較試験 (二重盲検法) 追跡期間 = 5年間 調査対象 = 心膜炎を初めて再発した120名 独立変数 = コルヒチン投与/プラセボ投与 従属変数 = 心膜炎の再発の有無 (18か月後) Imazio et al: Ann Intern Med 155: 409-414, 2011 36
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 方法の節 – 統計解析の項 » We needed 120 patients, 60 in each treatment group, to detect a 50% relative reduction in the risk for recurrence (50% in the placebo group vs. 25% in the colchicine group) with a p power of 80%,, using g a 2-sided α value of 0.05. The estimated 50.0% rate of recurrent pericarditis in the placebo group was based on the preliminary findings of the CORE trial (4) (4). Analyses were performed by intention to treat. Imazio et al: Ann Intern Med 155: 409-414, 2011 37
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 結果の節 » At 18 months, the recurrence rate was 24% in the colchicine group and 55% in the placebo group (absolute risk i k reduction, d ti 0 31 [95% CI 0.31 CI, 0 0.13 13 tto 0 0.46]; 46] relative l ti risk i k reduction, 0.56 [CI, 0.27 to 0.73]; number needed to treat, 3 [CI, 2 to 7]). Imazio et al: Ann Intern Med 155: 409-414, 2011 38
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 考察の節 – Table 4 (先行研究との比較) Imazio et al: Ann Intern Med 155: 409-414, 2011 39
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 考察の節 – 結論 » In summary, adding colchicine to empirical antiinflammatory therapy seems to be an inexpensive and safe means to hasten symptom resolution, improve remission rates by y 1 week,, and reduce recurrence after an initial recurrence of pericarditis. Imazio et al: Ann Intern Med 155: 409-414, 2011 40
一流誌での報告事例 コルヒチンによる心膜炎の再発予防 要旨の節 – 結果の項 » At 18 months, the recurrence rate was 24% in the colchicine group and 55% in the placebo group (absolute risk reduction, 0.31 [95% CI, 0.13 to 0.46]; relative risk reduction,, 0.56 [CI, [ , 0.27 to 0.73]; ]; number needed to treat,, 3 [CI, 2 to 7]). – 結論の項 » Colchicine C l hi i is i safe f and d effective ff ti for f secondary d prevention ti off recurrent pericarditis. Imazio et al: Ann Intern Med 155: 409-414, 2011 41
話題 Rによる質的データの二変量解析 (7 min) 質的データの二変量解析の基礎 (8 min) 質的データの二変量解析の留意事項 (14 min) 一流誌での報告事例 (0 min) 初心者向けの推薦文献 (1 min) 42
初心者向けの推薦文献 教科書 • Beyond y significance g testing g – http://www.amazon.co.jp/dp/1591471184 – 効果量の代表的な成書 – 基礎的な統計学の教科書を読了していれば読める数学レベル • 統計学のセンス – http://www.amazon.co.jp/dp/4254127510 – 統計学的な素養を養える生物統計学の読み物 – 誰でも読める数学レベル 43