検定力分析と標準化効果量を超えて: 正確度分析と非標準化効果量 奥村泰之 国立精神・神経医療研究センター 国立精神 神経医療研究センタ 精神保健研究所 社会精神保健研究部 文部科学省私立大学戦略的研究基盤形成支援事業 平成23年度選定事業 融合的心理科学の創成:心の連続性を探る 心理学における効果の大きさとばらつき 2012/2/25 13:30~17:45 専修大学生田校舎10号館1階
話題 私の統計学 研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 2
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 » Psychiatry y y Clin Neurosci 65: 356-364,, 2011 例数設計の実施率調査 » 老年精神医学雑誌 21: 21 93 93-100, 100 2010 効果量計算のRプログラム開発 » http://cran.r-project.org/web/packages/rpsychi/index.html 研究報告の質向上のためのガイドライン紹介 » http://www.e-rapport.jp/ebm/guidelin01/01.html 研究報告の質向上のための研究会の主催 » http://blue.zero.jp/yokumura/workshop.html 3
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 目的 • 日本の抑うつ研究の検定力を求める 方法 • 1990-2006年出版の974研究を系統的展望 1990 2006年出版の974研究を系統的展望 Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 4
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 結果 • 中程度の母集団効果量を想定した場合,44%の臨 床研究 検定力*は 0%に満たな 床研究の検定力*は50%に満たない – *検定力 = 正しい検定結果を得る (条件付き) 確率 結論 • 「真」に差異や関連のある事象であっても,コイント 「真」に差異や関連のある事象であっても コイント スよりも,正しい結果を得られていない Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 5
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 リジェクト!リジェクト!査読コメントの苦悩 • 抑うつ研究の検定力が低いのは,日本だけの現象 だ だ!アメリカ合衆国やヨーロッパでは,倫理審査の カ合衆国や パ は 倫理審査 段階で,検定力の計算が求められている! • この問題は,ヨーロッパでは関係ない!研究費の 申請段階から例数設計は求められている! Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 6
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 査読コメントは妥当か!? • 英国医学研究審議会は,研究費使用者の遵守規 定と 定として例数設計の実施を推奨 例数設計 実施を推奨[1] • STROBE声明 (観察研究) は,意味のある答えを 得るために,例数設計の実施を推奨[2] • CONSORT声明 声明 (無作為化比較試験) は,倫理的 ・科学的観点から例数設計の実施を推奨[3] [1] Medical Research Council: Good Research Practice. 2005. (http://p.tl/FYv4) [2] Vandenbroucke et al: Ann Intern Med 147: W163-194, 2007 [3] Moher et al: BMJ 340: c869, 2010 7
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 海外では本当にルールを守ってるのか!? • 例数設計の実施率調査 – 無作為化比較試験 = 45%[1] – コホート研究 = 8%[2] – 看護研究 = 1%[3] – (日本の) 老年精神医学研究 = 0%[4] [1] Hopewell et al: BMJ doi: 10.1136/bmj.c723, 2010 [2] Fung et al: Ophthalmology 116: 286-296, 2009 [3] Zellner et al: J Nurs Educ 46: 55-59, 2007 [4] 奥村, 伊藤: 老年精神医学雑誌 21: 93-100, 2010 8
私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 海外では本当にルールを守ってるのか!? • 検定力の調査 – 米国臨床腫瘍学会の学会発表におけるネガティブ データの臨床試験の67%は,検定力が80%以下[1] – British Journal of General Practice誌の25%は, 検定力が50%以下[2] 日本よりマシなだけで海外でも 本より シな け 海外 も 「例数設計の未実施」と「低検定力」の問題は存在 研究者への例数設計教育は喫緊の課題 [1] Bedard et al: J Clin Oncol 25: 3482-3487, 2007 [2] Fox N, Mathers N: Fam Pract 14: 324-329, 1997 9
話題 私の統計学 研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 10
検定力分析を超えて: 正確度分析 信頼区間は不確実性の指標 一般人口におけるうつ病の有病率 100 0 • 2.9% (95% 信頼区間 [CI] = 2.1~3.7) 母集団における真の有病率 Kawakami N et al: Psychiatry Clin Neurosci 59: 441-452, 2005 60 40 20 0 • 複数回調査を繰り返し, 信頼区間を求めると, その95%は真の有病率を含む • 図の赤線は, 真の有病率を含んでいない事例 調査回 回数 有病率の95%CIの意味 80 8 • 仮に3.2%とする 仮に3 2%とする (図の黄線) 1 2 3 4 有病率 (%) 5 6 11
検定力分析を超えて: 正確度分析 信頼区間は不確実性の指標 一般人口におけるうつ病の有病率 • 2.9% (95% CI = 2.1~3.7) 推計うつ病者数 (2008年) • 220万人から390万人 費用換算 (2008年) • 1兆3000億円~1兆9000億円 信頼区間の幅は狭いほど,良質な知見を生み出す 幅の広さの許容範囲は 実質的観点から決める 幅の広さの許容範囲は,実質的観点から決める Okumura Y, Higuchi T: Prim Care Companion CNS Disord 13 doi:10.4088/PCC.10m01082, 2011 12
検定力分析を超えて: 正確度分析 検定力分析 (power analysis) 特徴 • 「検定力」を重視した例数設計法 設定する主な指標 • 母集団効果量など • 有意水準 (e.g., 5%) • 検定力 (e.g., ( 80%) 13
検定力分析を超えて: 正確度分析 正確度分析 (precision analysis) 特徴 • 「信頼区間の幅」を重視した例数設計法 設定する主な指標 • 母集団効果量など • 信頼限界 (e.g., 95%) • 信頼区間の幅 14
検定力分析を超えて: 正確度分析 母比率の例数設計 検定力分析 • 帰無仮説 = うつ病の有病率は2.5% • 対立仮説 = うつ病の有病率は2.5%超 (片側検定) % • 母比率 = 3.2% • 有意水準 = 5% • 検定力 = 80% • 必要例数 = 3,347例 15
検定力分析を超えて: 正確度分析 母比率の例数設計 正確度分析 • 母比率 = 3.2% • 信頼限界 = 95% % ((2.7%~3.7%) % %) • 信頼区間の幅 = ±0.5% • 必要例数 = 4 4,783例 783例 16
検定力分析を超えて: 正確度分析 ガイドラインにおける正確度分析の推奨 アメリカ心理学会[1] • 例数設計の根拠を述べよ (e.g., 検定力分析 or 正確 度分析) STROBE声明 ((観察研究))[2] • 意味のある結果を得るためには,狭い信頼区間の 幅になるよう大きな標本サイズが必要 検定力分析を超えて [1] APA: Publication manual of the American Psychological Association 2009. p.30 [2] Vandenbroucke et al: Ann Intern Med 147: W163-194, 2007 20
話題 私の統計学 研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 21
標準化効果量を超えて: 非標準化効果量 標準化効果量 (standardized effect size) の事例 目的 Daneman1961 • 抗うつ薬はプラセボを凌駕する? Friedman1966 方法 • 研究レベルのメタ 研究レベルのメタ・アナリシス アナリシス 結果 Friedman1975 Hollister1964 Hussain1970 Murphy1984 Uhlenhuth1964 Weintraub1963 Wilson1963 • 抗うつ薬の方が効果がある (SMD* = 0.39, 95% CI, 0.24 to 0.54) Total – *Standardized Mean Differences (Hedges' g) Moncrieff et al: Cochrane Database Syst Rev CD003012, 2004 -1.0 0.0 0.8 1.6 標準化平均値差 22
標準化効果量を超えて: 非標準化効果量 標準化効果量 (standardized effect size) 種類 • 量的変数: Hedges' gなど • 質的変数: φ係数など 特徴 • 同一の概念を異なる尺度で測定しても比較可能 (尺度不変の性質) • 値の大小の解釈は難しい Baguley T: Br J Psychol 100: 603-617, 2009 23
標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) の事例 目的 • 抗うつ薬はプラセボを凌駕する? 方法 • 患者レベルのメタ・アナリシス 患者レベルのメタ アナリシス • HAM-Dを評価尺度とした6つの無作為化比較試験 Fournier et al: JAMA 303: 47-53, 2010 24
標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) の事例 治療前前後の変化 抗うつ薬群 プラセボ群 治療前の重症度 治療前の重症度が25点以上であれば,抗うつ薬 (−12点) は プラセボ (−9点) よりも,3点以上効果が高い Fournier et al: JAMA 303: 47-53, 2010 25
標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) 種類 • 量的変数: 平均値差など • 質的変数: 比率差など 特徴 • 尺度不変の性質がない • 解釈が容易 標準化効果量を超えて 26
標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ①評価尺度の統一 • 抗うつ薬の臨床評価方法に関するガイドライン (案) – 評価尺度として,HAM-DまたはMADRSを推奨 – 治療前と最終評価時の変化量を評価項目とする 問題 • HAM-DとMADRSは別の尺度である HAM DとMADRSは別の尺度である (尺度の統一 (尺度の統 が不完全である) • 統一した評価尺度の心理測定学的特性は,すべて 統 した評価尺度 心理測定学的特性は すべ のうつ病患者に対して良好ではない 厚生労働省医薬食品局審査管理課: http://wwwhourei.mhlw.go.jp/hourei/doc/tsuchi/T101117I0020.pdf, 2010 27
標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ②評価尺度間の変換式の作成 • HAM-DとMADRSの変換式の推定[1] – HAM-D = -1.58 + 0.86 × MADRS • 項目反応理論によるHAM-DとMADRSの等価[2] 問題 • 評価尺度は50以上存在する[3] • 調査対象の特性を考慮したら き がな きりがない MADRS HAM-D [1] Heo et al: Am J Geriatr Psychiatry 15: 899-905, 2007 [2] Uher et al: Psychol Med 38:289-300, 2008 [3] 奥村 他: パーソナリティ研究 16: 238-246, 2008 28
標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ③共通尺度の作成 • 項目反応理論に基づく,うつ病の重症度を測定する項 目プ 目プール (共通尺度) を作る (e.g. ( TOEFL) O ) PROMIS®[1][2] • National Institute of Health (NIH) 主導の質問紙を改 善するための巨大プロジェクト • 抑うつ,不安,怒り,痛みなどの項目プールを作成中 • 調査対象の特性にかかわらず,より少ない項目で,高 調査対象の特性にかかわらず より少ない項目で 高 い精度の測定が可能になる [1] Pilkonis et al: Assessment 18: 263-283, 2011 [2] Gibbons et al: Qual Life Res. 20: 349-57, 2011 29
標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 PROMIS®[1][2] 概念モデルの作成 項目の素案作成 専門家の意見交換 項目の質的な検討 項目の修正 新項目の追加 項目の削除 項目の認識の吟味 識字能力の吟味 著作権の吟味 項目母数推定の調査 (略記) 併存的妥当性の調査 ((略記)) [1] Pilkonis et al: Assessment 18: 263-283, 2011 [2] Gibbons et al: Qual Life Res. 20: 349-57, 2011 30
標準化効果量を超えて: 非標準化効果量 標準化効果量を超えるハードル 要求される研究者の技能 • STARD声明,潜在構造分析,項目反応理論,一 般化可能性理論など 十分な知識 般化可能性理論などの十分な知識 要求される臨床家の技能 要求 臨床家 技能 • 確定基準 (Gold Standard) として,SCIDやCIDIな どの (半) 構造化面接の十分な訓練 要求される教育者の信念の変化 • 尺度研究は資料論文という差別的な位置づけ • 尺度氾濫につながる新しい尺度作成への偏愛 • 大学院生が学位目的で気軽に尺度作成 31
まとめ 研究者への例数設計教育は喫緊の課題 検定力分析よりも正確度分析 標準化効果量よりも非標準化効果量 ①評価尺度の統一 ②評価尺度間の変換式の作成 ③共通尺度の作成 Further Learningg 心理・医学系研究者のためのデータ解析環境Rによ る統計学の研究会(http://blue.zero.jp/yokumura/workshop.html) 32