検定力分析と標準化効果量を超えて：正確度分析と非標準化効果量

1.1K Views

May 24, 22

スライド概要

奥村泰之

@icer

スライド一覧

一般社団法人臨床疫学研究推進機構

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 466.08kB)

関連スライド

各ページのテキスト

検定力分析と標準化効果量を超えて: 正確度分析と非標準化効果量奥村泰之国立精神・神経医療研究センター国立精神神経医療研究センタ精神保健研究所社会精神保健研究部文部科学省私立大学戦略的研究基盤形成支援事業平成23年度選定事業融合的心理科学の創成：心の連続性を探る心理学における効果の大きさとばらつき 2012/2/25 13:30~17:45 専修大学生田校舎10号館1階

話題 私の統計学研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 2

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 » Psychiatry y y Clin Neurosci 65: 356-364,, 2011 例数設計の実施率調査 » 老年精神医学雑誌 21: 21 93 93-100, 100 2010 効果量計算のRプログラム開発 » http://cran.r-project.org/web/packages/rpsychi/index.html 研究報告の質向上のためのガイドライン紹介 » http://www.e-rapport.jp/ebm/guidelin01/01.html 研究報告の質向上のための研究会の主催 » http://blue.zero.jp/yokumura/workshop.html 3

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 目的 • 日本の抑うつ研究の検定力を求める 方法 • 1990-2006年出版の974研究を系統的展望 1990 2006年出版の974研究を系統的展望 Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 4

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 結果 • 中程度の母集団効果量を想定した場合，44%の臨床研究検定力*は 0%に満たな床研究の検定力*は50%に満たない – *検定力 = 正しい検定結果を得る (条件付き) 確率 結論 • 「真」に差異や関連のある事象であっても，コイント「真」に差異や関連のある事象であってもコイントスよりも，正しい結果を得られていない Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 5

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 リジェクト！リジェクト！査読コメントの苦悩 • 抑うつ研究の検定力が低いのは，日本だけの現象だだ！アメリカ合衆国やヨーロッパでは，倫理審査のカ合衆国やパは倫理審査段階で，検定力の計算が求められている！ • この問題は，ヨーロッパでは関係ない！研究費の申請段階から例数設計は求められている！ Okumura Y, Sakamoto S: Psychiatry Clin Neurosci 65: 356-364, 2011 6

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 査読コメントは妥当か！？ • 英国医学研究審議会は，研究費使用者の遵守規定と定として例数設計の実施を推奨例数設計実施を推奨[1] • STROBE声明 (観察研究) は，意味のある答えを得るために，例数設計の実施を推奨[2] • CONSORT声明声明 (無作為化比較試験) は，倫理的・科学的観点から例数設計の実施を推奨[3] [1] Medical Research Council: Good Research Practice. 2005. (http://p.tl/FYv4) [2] Vandenbroucke et al: Ann Intern Med 147: W163-194, 2007 [3] Moher et al: BMJ 340: c869, 2010 7

http://p.tl/FYv4

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 海外では本当にルールを守ってるのか！？ • 例数設計の実施率調査 – 無作為化比較試験 = 45%[1] – コホート研究 = 8%[2] – 看護研究 = 1%[3] – (日本の) 老年精神医学研究 = 0%[4] [1] Hopewell et al: BMJ doi: 10.1136/bmj.c723, 2010 [2] Fung et al: Ophthalmology 116: 286-296, 2009 [3] Zellner et al: J Nurs Educ 46: 55-59, 2007 [4] 奥村, 伊藤: 老年精神医学雑誌 21: 93-100, 2010 8

私の統計学・研究法教育の活動 日本の抑うつ研究の検定力の調査 海外では本当にルールを守ってるのか！？ • 検定力の調査 – 米国臨床腫瘍学会の学会発表におけるネガティブデータの臨床試験の67%は，検定力が80%以下[1] – British Journal of General Practice誌の25%は，検定力が50%以下[2] 日本よりマシなだけで海外でも本よりシなけ海外も「例数設計の未実施」と「低検定力」の問題は存在研究者への例数設計教育は喫緊の課題 [1] Bedard et al: J Clin Oncol 25: 3482-3487, 2007 [2] Fox N, Mathers N: Fam Pract 14: 324-329, 1997 9

10.

話題 私の統計学研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 10

11.

検定力分析を超えて: 正確度分析 信頼区間は不確実性の指標 一般人口におけるうつ病の有病率 100 0 • 2.9% (95% 信頼区間 [CI] = 2.1~3.7) 母集団における真の有病率 Kawakami N et al: Psychiatry Clin Neurosci 59: 441-452, 2005 60 40 20 0 • 複数回調査を繰り返し，信頼区間を求めると，その95%は真の有病率を含む • 図の赤線は，真の有病率を含んでいない事例調査回回数 有病率の95%CIの意味 80 8 • 仮に3.2%とする仮に3 2%とする (図の黄線) 1 2 3 4 有病率 (%) 5 6 11

12.

検定力分析を超えて: 正確度分析 信頼区間は不確実性の指標 一般人口におけるうつ病の有病率 • 2.9% (95% CI = 2.1~3.7) 推計うつ病者数 (2008年) • 220万人から390万人 費用換算 (2008年) • 1兆3000億円~1兆9000億円信頼区間の幅は狭いほど，良質な知見を生み出す幅の広さの許容範囲は実質的観点から決める幅の広さの許容範囲は，実質的観点から決める Okumura Y, Higuchi T: Prim Care Companion CNS Disord 13 doi:10.4088/PCC.10m01082, 2011 12

13.

検定力分析を超えて: 正確度分析 検定力分析 (power analysis) 特徴 • 「検定力」を重視した例数設計法 設定する主な指標 • 母集団効果量など • 有意水準 (e.g., 5%) • 検定力 (e.g., ( 80%) 13

14.

検定力分析を超えて: 正確度分析 正確度分析 (precision analysis) 特徴 • 「信頼区間の幅」を重視した例数設計法 設定する主な指標 • 母集団効果量など • 信頼限界 (e.g., 95%) • 信頼区間の幅 14

15.

検定力分析を超えて: 正確度分析 母比率の例数設計 検定力分析 • 帰無仮説 = うつ病の有病率は2.5% • 対立仮説 = うつ病の有病率は2.5%超 (片側検定) % • 母比率 = 3.2% • 有意水準 = 5% • 検定力 = 80% • 必要例数 = 3,347例 15

16.

検定力分析を超えて: 正確度分析 母比率の例数設計 正確度分析 • 母比率 = 3.2% • 信頼限界 = 95% % ((2.7%~3.7%) % %) • 信頼区間の幅 = ±0.5% • 必要例数 = 4 4,783例 783例 16

17.

検定力分析を超えて: 正確度分析 ガイドラインにおける正確度分析の推奨 アメリカ心理学会[1] • 例数設計の根拠を述べよ (e.g., 検定力分析 or 正確度分析) STROBE声明 ((観察研究))[2] • 意味のある結果を得るためには，狭い信頼区間の幅になるよう大きな標本サイズが必要検定力分析を超えて [1] APA: Publication manual of the American Psychological Association 2009. p.30 [2] Vandenbroucke et al: Ann Intern Med 147: W163-194, 2007 20

18.

話題 私の統計学研究法教育の活動 (6 min) 私の統計学・研究法教育の活動 検定力分析を超えて: 正確度分析 (10 min) 標準化効果量を超えて: 非標準化効果量 (14 min) 21

19.

標準化効果量を超えて: 非標準化効果量 標準化効果量 (standardized effect size) の事例 目的 Daneman1961 • 抗うつ薬はプラセボを凌駕する？ Friedman1966 方法 • 研究レベルのメタ研究レベルのメタ・アナリシスアナリシス 結果 Friedman1975 Hollister1964 Hussain1970 Murphy1984 Uhlenhuth1964 Weintraub1963 Wilson1963 • 抗うつ薬の方が効果がある (SMD* = 0.39, 95% CI, 0.24 to 0.54) Total – *Standardized Mean Differences (Hedges' g) Moncrieff et al: Cochrane Database Syst Rev CD003012, 2004 -1.0 0.0 0.8 1.6 標準化平均値差 22

20.

標準化効果量を超えて: 非標準化効果量 標準化効果量 (standardized effect size) 種類 • 量的変数: Hedges' gなど • 質的変数: φ係数など 特徴 • 同一の概念を異なる尺度で測定しても比較可能 (尺度不変の性質) • 値の大小の解釈は難しい Baguley T: Br J Psychol 100: 603-617, 2009 23

21.

標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) の事例 目的 • 抗うつ薬はプラセボを凌駕する？ 方法 • 患者レベルのメタ・アナリシス患者レベルのメタアナリシス • HAM-Dを評価尺度とした6つの無作為化比較試験 Fournier et al: JAMA 303: 47-53, 2010 24

22.

標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) の事例治療前前後の変化抗うつ薬群プラセボ群治療前の重症度治療前の重症度が25点以上であれば，抗うつ薬 (−12点) はプラセボ (−9点) よりも，3点以上効果が高い Fournier et al: JAMA 303: 47-53, 2010 25

23.

標準化効果量を超えて: 非標準化効果量 非標準化効果量 (unstandardized effect size) 種類 • 量的変数: 平均値差など • 質的変数: 比率差など 特徴 • 尺度不変の性質がない • 解釈が容易標準化効果量を超えて 26

24.

標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ①評価尺度の統一 • 抗うつ薬の臨床評価方法に関するガイドライン (案) – 評価尺度として，HAM-DまたはMADRSを推奨 – 治療前と最終評価時の変化量を評価項目とする 問題 • HAM-DとMADRSは別の尺度である HAM DとMADRSは別の尺度である (尺度の統一 (尺度の統が不完全である) • 統一した評価尺度の心理測定学的特性は，すべて統した評価尺度心理測定学的特性はすべのうつ病患者に対して良好ではない厚生労働省医薬食品局審査管理課: http://wwwhourei.mhlw.go.jp/hourei/doc/tsuchi/T101117I0020.pdf, 2010 27

http://wwwhourei.mhlw.go.jp/hourei/doc/tsuchi/T101117I0020.pdf

25.

標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ②評価尺度間の変換式の作成 • HAM-DとMADRSの変換式の推定[1] – HAM-D = －1.58 + 0.86 × MADRS • 項目反応理論によるHAM-DとMADRSの等価[2] 問題 • 評価尺度は50以上存在する[3] • 調査対象の特性を考慮したらきがなきりがない MADRS HAM-D [1] Heo et al: Am J Geriatr Psychiatry 15: 899-905, 2007 [2] Uher et al: Psychol Med 38:289-300, 2008 [3] 奥村他: パーソナリティ研究 16: 238-246, 2008 28

26.

標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 ③共通尺度の作成 • 項目反応理論に基づく，うつ病の重症度を測定する項目プ目プール (共通尺度) を作る (e.g. ( TOEFL) O ) PROMIS®[1][2] • National Institute of Health (NIH) 主導の質問紙を改善するための巨大プロジェクト • 抑うつ，不安，怒り，痛みなどの項目プールを作成中 • 調査対象の特性にかかわらず，より少ない項目で，高調査対象の特性にかかわらずより少ない項目で高い精度の測定が可能になる [1] Pilkonis et al: Assessment 18: 263-283, 2011 [2] Gibbons et al: Qual Life Res. 20: 349-57, 2011 29

27.

標準化効果量を超えて: 非標準化効果量 標準化効果量を超える3方略 PROMIS®[1][2] 概念モデルの作成項目の素案作成専門家の意見交換項目の質的な検討項目の修正新項目の追加項目の削除項目の認識の吟味識字能力の吟味著作権の吟味項目母数推定の調査 (略記) 併存的妥当性の調査 ((略記)) [1] Pilkonis et al: Assessment 18: 263-283, 2011 [2] Gibbons et al: Qual Life Res. 20: 349-57, 2011 30

28.

標準化効果量を超えて: 非標準化効果量 標準化効果量を超えるハードル 要求される研究者の技能 • STARD声明，潜在構造分析，項目反応理論，一般化可能性理論など十分な知識般化可能性理論などの十分な知識 要求される臨床家の技能要求臨床家技能 • 確定基準 (Gold Standard) として，SCIDやCIDIなどの (半) 構造化面接の十分な訓練 要求される教育者の信念の変化 • 尺度研究は資料論文という差別的な位置づけ • 尺度氾濫につながる新しい尺度作成への偏愛 • 大学院生が学位目的で気軽に尺度作成 31

29.

まとめ 研究者への例数設計教育は喫緊の課題 検定力分析よりも正確度分析 標準化効果量よりも非標準化効果量 ①評価尺度の統一 ②評価尺度間の変換式の作成 ③共通尺度の作成 Further Learningg 心理・医学系研究者のためのデータ解析環境Rによる統計学の研究会(http://blue.zero.jp/yokumura/workshop.html) 32

検定力分析と標準化効果量を超えて：正確度分析と非標準化効果量

奥村 泰之

関連スライド

中級者による初心者のための「綿形混合モデル」

臨床疫学研究における 傾向スコア分析の使い⽅ 〜観察研究における治療効果研究〜

「傾向スコア分析」の書き方

中級者による初心者のための「ロジスティック回帰分析」

中級者による初心者のための「探索的因子分析」

COSMINチェックリストの 概要と共通項目の理解

各ページのテキスト

奥村泰之

臨床疫学研究における傾向スコア分析の使い⽅〜観察研究における治療効果研究〜

COSMINチェックリストの概要と共通項目の理解