検定力分析とベイズファクターデザイン分析によるサンプルサイズ設計

スライド概要

2022年3月7日に行われたベイズ統計学勉強会 2022 年春合宿(ベイズ塾春合宿)での発表に使ったスライドです。質問・ご意見等がございましたらTwitterアカウント (@mutopsy) もしくはメール(h.muto[at]zm.commufa.jp)等でお知らせください。

profile-image

Hiroyuki Muto

@mutopsy

作者について:

大学で研究と教育をしている小さな生き物です。心理学の科学的方法(数理&統計モデリング・実験法・心理測定論・仮説検定・ベイズ統計学・再現性と信用性の向上・科学哲学)とその実践(特に知覚・認知・数理心理学)に関心があります。

スライド一覧
シェア
埋め込む»CMSなどでJSが使えない場合

公開日

2022-03-07 09:11:00

各ページのテキスト

1. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 1/44 2022年3月7日 ベイズ統計学勉強会 2022年春合宿 (ベイズ塾春合宿2022) 検定力分析と ベイズファクターデザイン分析による サンプルサイズ設計 武藤 拓之 (Hiroyuki Muto) 京都大学こころの未来研究センター

2. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ もくじ 1. 導入 2. ネイマン・ピアソン (NP) の枠組みにおける検定力分析 3. ベイズファクターデザイン分析 (BFDA) の考え方 4. 固定nデザイン 5. オープンエンドの逐次ベイズファクターデザイン (SBF) 6. 上限nの逐次BFデザイン (SBF+maxN) 7. まとめ 2/44

3. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 導入 3/44

4. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 4/44 なぜサンプルサイズ設計が必要か 少なくとも以下の2つが理由として挙げられる。 1. 適切性:統計的推測の前提を満たすために必要だから ⚫ 頻度主義的な検定の場合,データの情報を使ってサンプルサイズを決めてしまうと 標本分布 (サンプリング分布) が歪むため,分析結果を信用できなくなる。 → 事前に決めておけば問題なし ⚫ 特にネイマン・ピアソン (NP) の枠組みでは事前の検定力分析が必須。 ⚫ ベイズでもサンプリングの停止規則と仮説の評価法を事前に決めておくことは大事。 2. 効率性:研究の実施コストと潜在的利益のバランスをとるため ⚫ 他の条件が同じなら,サンプルサイズが大きいほど統計的推測は正確になる。 ⚫ 一方,サンプルサイズが大きいほど研究の実施コストは増加する。 → 現実的・倫理的に無理のない範囲内で利益を最大化したい! (あるいは,コストが割に合わないことが分かったら研究の実施を中止する。) ※サンプルサイズが大きすぎると何でもかんでも有意 (significant) になるから大きすぎるサンプルサイズはよくない,という意見もあるが,この主張が成 り立つのは,「効果の大きさを一切考慮せず,有意か否かのみに基づいて判断を下す」という不適切かつ非現実的な前提を受け入れた場合だけで ある。例えば,100万人に調査しないと検出できないほど小さな効果であっても,それを調査することで得られる潜在的利益がコストを本当に上回 り,かつ他にもっと効率の良い方法がないのであれば,100万人という大サンプルの調査を行うことには意味がある。

5. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 5/44 デザイン分析とBFDA – デザイン分析 (design analysis; Gelman & Carlin, 2014) ⚫ 研究デザインの設定や得られた結果の解釈に役立てるために, 仮想的な研究を繰り返したときに何が起こるかを計算すること。 ◼ 研究の実施前 (前向き) だけでなく実施後 (後ろ向き) にも適用できる。 ◼ Type-S error (有意となったときに符号が逆になるエラー) と誇張比 (有意と なったときの効果量の期待値が真の効果量の何倍になるか) も計算できる。 ※本発表はこれらの点には触れないので興味のある人は原著を読んでください。 ⚫ 検定力分析はデザイン分析の特殊なケース。 ◼ 有意水準と効果量とサンプルサイズを固定して何度も検定を行ったときに, 正しく有意になる割合 (検定力) を計算することで, 望ましい検定力が得られるようなサンプルサイズを決定する。 ⚫ これをベイズファクターに拡張したものがベイズファクターデザイン分析 (Schönbrodt & Wagenmakers, 2018)

6. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 6/44 この発表の目的と方針 – デザイン分析によるサンプルサイズ設計の方法を解説する。 ⚫ まずはNPの枠組みにおける検定力分析の復習から。 ⚫ ベイズファクターを使ったBFDAも3つ紹介。 – 例として,独立な2群の平均値に差があるかを知りたい場合のみ考える。 ⚫ 対応のないt検定の両側検定に相当 (i.e., 𝐻0 : 𝜇𝐴 − 𝜇𝐵 = 0) ⚫ e.g., 介入群は統制群よりも認知課題の平均得点が高いか? ⚫ もちろん他のケースにも適用可能。 – 主に以下の2本の文献を参考にした。 ⚫ Schönbrodt & Wagenmakers (2018) Psychonomic Bulletin and Review ◼ ベイズファクターデザイン分析と,具体的な3つの手続きを提案している。 ⚫ Kovacs et al. (2022) Advances in Methods and Practices in Psychological Science ◼ サンプルサイズ設計を行うためのツールを提供 (Rパッケージとブラウザで使えるShinyAppがある) ShinyApp: https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/ ◼ 頻度論的なequivalence testなどについても解説されているが,本発表では触れない。

7. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 7/44 NPの枠組みにおける検定力分析

8. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 8/44 まとめ 起こり得る結果 – 実際に対立仮説 (H1) が正しいとき (=本当は差がある!) ⚫ 正しく対立仮説が採択される確率 = 真陽性率 ◼ NPの枠組みでは検定力 (power) すなわち1 − 𝛽のこと。(臨床検査で言う「感度」) ⚫ 誤って帰無仮説が採択される確率 = 偽陰性率 ◼ NPの枠組みでは第二種の過誤 (true positive rate) (type-Ⅱ error) (false negative rate) の確率すなわち𝛽のこと。 ⚫ どちらも採択されない確率 ◼ NPの枠組みではゼロ。 – 実際に帰無仮説 (H0) が正しいとき (=本当は差がない!) ⚫ 正しく帰無仮説が採択される確率 = 真陰性率 (true negative rate) ◼ NPの枠組みでは1 − 𝛼のこと。(臨床検査で言う「特異度」) ⚫ 誤って対立仮説が採択される確率 = 偽陽性率 ◼ NPの枠組みでは第一種の過誤 ⚫ どちらも採択されない確率 ◼ NPの枠組みではゼロ。 (type-Ⅰ error) (false positive rate) の確率すなわち有意水準𝛼のこと。

9. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 9/44 まとめ NPの枠組みで起こり得る結果 観測できる 結果 𝐻1 を採択 (e.g., 𝑝 < .05) 観測できない 真実 𝐻1 が真 𝐻0 が真 1−𝛽 (真陽性, 検定力) 𝛼 (偽陽性, 第一種の過誤) 𝐻0 を採択 どちらも採択しない 𝛽 0 1−𝛼 0 (e.g., 𝑝 > .05) (偽陰性, 第二種の過誤) (真陰性) – 行 (横方向) の合計は必ず1になる。(つまり,各セルの値は観測できない真実で条件付けた確率) – 𝛼と𝛽を小さくするほど誤りのリスクを回避できるが一般にはデータ収集コストが増える。 → NPの枠組みでは,𝛼と𝛽をきちんと制御した上で分析を行うことが肝要 → そのためにはサンプルサイズ設計が不可欠 ※実際には結果が陰性(n.s.)の場合は「𝐻0 を採択」せずに「保留」とすることが多い。(フィッシャー流とのハイブリッド)

10. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 10/44 NP流のサンプルサイズ設計に必要なパラメータ – 4つのパラメータのうち3つが決まれば残り1つは自動的に決まる。 1. 第一種の過誤率𝛼 (i.e., 有意水準) ◼ 慣例的には𝛼 = .05とする場合が多い。 2. 第二種の過誤率𝛽または検定力1 − 𝛽 ◼ 1 − 𝛽 = .80や1 − 𝛽 = .95あたりにすることが多いか。 ◼ 厳密にいえば,想定している母効果量を所与としたときの条件付き検定力である。 ∴「想定している母効果量≠真の母効果量」の場合は実際の検定力と一致しない。 3. 想定している𝐻1 のもとでの母集団における標準化効果量 (e.g., Cohen’s d) ◼ 期待される効果量あるいはminimally interestingな母効果量を設定する。 ◼ 先行研究の知見などのドメイン知識やパイロット研究の結果に基づいて決めるのが理想。 (報告された効果量の点推定値は必ずしも不偏推定量ではないし出版バイアスもあるので注意。) ◼ 1つに決められない場合には複数試してみてサンプルサイズとの関係を調べるとよい。(感度分析) → 検定力曲線 (power curve) を描くのも有効 ◼ 真の効果量より大きな値を設定しがちなので検定力が想定より小さくなりやすいとの指摘もある。 4. サンプルサイズ𝑛 ◼ 上記の3つのパラメータ (と統計モデル) を決めれば求められる。

11. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 11/44 まとめ シミュレーションしてみよう – サンプルサイズ設計の理屈を理解するのにシミュレーションが便利。 ⚫ シミュレーションする場合は, 𝛼と効果量と𝑛を与えたときの検定力を求めるのが楽。 ⚫ 𝑛を変化させて,望ましい𝛽が得られるような𝑛を見つける。 ⚫ ここでは𝛼 = .05,𝑑 = 0.5を固定した状態で各群の𝑛を適当に決めて 5万回シミュレーションし,𝛽 = .20 (i.e., 1 − 𝛽 = .80) となるような𝑛を探す。 シミュレーションの流れ (具体例) 1 − 𝛽 = .80に 十分近づくまで 繰り返す 50,000回 繰り返す 1. 有意水準と想定する効果量を設定:𝛼 = .05, 𝑑 = 0.5 2. サンプルサイズ𝑛を適当に設定 3. 帰無仮説𝐻0 が真の場合 (i.e., 𝑑 = 0.0) のデータを生成 ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 介入群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 4. 対立仮説𝐻1 が真の場合 ⚫ ⚫ (i.e., 𝑑 = 0.5) のデータを生成 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 介入群:Normal(𝜇 = 0.5, 𝜎 = 1)から𝑛個の乱数を生成 5. それぞれのデータに対して対応のないt検定を行い結果を記録。 6. データから, 𝐻0 の下での𝛼と𝐻1 の下での1 − 𝛽を計算する。 (i.e., 50,000回のうち何割が有意になったかを仮説ごとにカウントする。) 7. このときの𝑛を採用する。

12. 導入 NP検定力 BFDA 固定n SBF Rコード – N_parを変えたときに 検出力がどう変わるかを 確認する。 – Settingsをいじって 遊んでみるとよい。 – 可読性を優先して for文で書いているため ちょっと時間がかかるかも。 SBF+maxN まとめ 12/44

13. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 13/44 まとめ 各群50人ずつのときの結果 5万回分のt値の分布 5万回分のp値のヒストグラム 𝛼 = .050 青い矢印で示した範囲が棄却域 1 − 𝛽 = .695 濃い部分が陽性 (有意) ⚫ 𝑛 = 50のとき,1 − 𝛽 = .693で,目標 (1 − 𝛽 = .80) よりもちょっと小さい → このサンプルサイズでは足りない ⚫ ちなみに,G*PowerでPost hoc分析を選んで 計算すると同じ結果になる。

14. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 14/44 まとめ 各群64人ずつのときの結果 5万回分のt値の分布 5万回分のp値のヒストグラム 𝛼 = .051 青い矢印で示した範囲が棄却域 濃い部分が陽性 (有意) ⚫ 𝑛 = 64のとき,1 − 𝛽 = .804で,目標 (1 − 𝛽 = .80) とほぼ一致 → これでOK! ⚫ G*Powerともほぼ一致 1 − 𝛽 = .804

15. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 15/44 まとめ 各群100人ずつのときの結果 5万回分のt値の分布 5万回分のp値のヒストグラム 𝛼 = .051 青い矢印で示した範囲が棄却域 1 − 𝛽 = .941 濃い部分が陽性 (有意) ⚫ 𝑛 = 100のとき,1 − 𝛽 = .941で,目標 (1 − 𝛽 = .80) よりも大きい → これでもよいが,もっとコストを減らせる。 ⚫ G*PowerのPost hoc分析の結果ともちゃんと一致。

16. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 16/44 まとめ 検定力曲線 – 検定力曲線 (power curve) ⚫ 𝛼と𝛽を固定したときの効果量と𝑛の関係をプロットしたもの。 ⚫ 効果量にあたりを付けたいときに便利かも (一種の感度分析)。 Kovacs et al. (2022) のFig.2.

17. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ BFDAの考え方 17/44

18. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 18/44 まとめ ベイズファクターの復習 ◼ ベイズファクター (Bayes factor) – 事後モデルオッズと事前モデルオッズの比 (= 周辺尤度の比) 𝐵𝐹10 = 𝑝 ℳ1 𝒚 /𝑝 ℳ0 𝒚 𝑝 𝒚 ℳ1 = 𝑝 ℳ1 /𝑝(ℳ0 ) 𝑝 𝒚 ℳ0 – 2つのモデルを比較するときに使える。 – 帰無仮説𝐻0 と対立仮説𝐻1 のそれぞれをモデルだと考えて比較する。 𝐻0 : 帰無仮説 (point null model) 𝑌𝑐𝑜𝑛𝑡𝑟𝑜𝑙 ~ Normal 𝜇, 𝜎 𝑌𝑡𝑟𝑒𝑎𝑡𝑚𝑒𝑛𝑡 ~ Normal 𝜇 + 𝛿𝜎, 𝜎 𝛿=0 事前分布 𝑝 𝜎 ∝ 1/𝜎 2 𝐻1 : 対立仮説 (alternative model) 𝑌𝑐𝑜𝑛𝑡𝑟𝑜𝑙 ~ Normal 𝜇, 𝜎 𝑌𝑡𝑟𝑒𝑎𝑡𝑚𝑒𝑛𝑡 ~ Normal 𝜇 + 𝛿𝜎, 𝜎 𝛿 ~ Cauchy 0,1 事前分布 𝑝 𝜎 ∝ 1/𝜎 2 𝛿=0 𝛿 𝛿 ~ Cauchy 0,1 𝛿

19. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 19/44 まとめ (参考)ベイズファクターの基準 Lee & Wagenmakers (2013/2017) より • あくまでも参考程度に。 • 元々では3ではなく100.5(≃ 3.2),30ではなく101.5(≃ 32)

20. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 20/44 まとめ BFDA – ベイズファクターデザイン分析 (BFDA; Schönbrodt & Wagenmakers, 2018) ⚫ ベイズファクターに基づく仮説評価にデザイン分析を適用したもの。 ⚫ 比較したい2つの仮説をモデルで表して, それらのモデルのもとで研究のシミュレーションを繰り返し行い, 起こり得る結果の割合 (long-term probability) を調べる。 → サンプルサイズ設計に使える ⚫ 3通りのデザインが提案されている。 1. 固定nデザイン 2. オープンエンドの逐次ベイズファクターデザイン (SBF) 3. 上限nの逐次ベイズファクターデザイン (SBF+maxN) 1→3の順に,必要な平均サンプルサイズは小さくなる (i.e., 効率的)

21. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 21/44 まとめ BFDAで起こり得る結果 観測できる 結果 𝐻1 の証拠 (e.g., 𝐵𝐹10 > 10) 観測できない 真実 𝐻0 の証拠 (e.g., 𝐵𝐹10 < 1 ) 10 曖昧な証拠 1 (e.g.,10 < 𝐵𝐹10 < 10) 𝐻1 が真 真陽性 偽陰性 1-(真陽性+偽陰性) 𝐻0 が真 偽陽性 真陰性 1-(偽陽性+真陰性) – 真陽性・偽陰性・偽陽性・真陰性の4つを考える。 (オープンエンドの逐次BFデザインの場合のみ,曖昧な証拠の確率は0になる。) – シミュレーションにより,各セルの事象が生じる割合を調べることができる。 – 頻度主義的な分析の場合とは異なり,𝐻1 と𝐻0 は必ずしも排反ではない。

22. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 22/44 まとめ 効果量の事前分布 – BFDAでは効果量の事前分布として以下の2種類を区別することが重要。 ⚫ デザインのための事前分布 (design priors) ◼ データ収集の前に使用する事前分布。 ◼ ドメイン知識を活用することで, 説得力のある証拠を得やすく,誤った証拠を得にくくするように設定する。  例えば 𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1)  古典的な検定力分析のように「点」で設定すると,真の効果量との差が大きいとき に非効率になる (検定力過剰) or 結論が下せない (検定力不足)  広すぎる事前分布を用いると必要サンプルサイズが大きくなる。 ⚫ 分析のための事前分布 (analysis priors) ◼ 実際にデータを分析するときに使用する事前分布。 ◼ 情報の少ない事前分布を用いるのが望ましい。  例えば 𝛿 ~ Cauchy(0, 1 ) 2 design prior analysis prior のようなdefault priorを使う。  科学研究においては懐疑的な読者をも納得させる証拠を示すことが大切。

23. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 固定nデザイン 23/44

24. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 固定nデザインの考え方 – 固定nデザイン (fixed-n design) ⚫ サンプルサイズを事前に決定してデータを収集し, ベイズファクターを使って仮説の評価を行うデザイン。 ⚫ 真陽性・偽陰性・偽陽性・真陰性の率をコントロールできる。 ⚫ 検定力分析の発想に近い。 24/44

25. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 25/44 まとめ 固定nデザインで必要なパラメータ – シミュレーションに必要な4つのパラメータ 1. 想定している𝐻1 のもとでの効果量の事前分布 ◼ デザインのための事前分布 (design prior) をドメイン知識から決定。 ◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) 2. 実際のデータ分析で使用する事前分布 ◼ 分析のための事前分布 (analysis prior) を決めておく。 ◼ 例えば𝑑 ~ Cauchy(0, 1 ) 2 のようなdefault prior。 design prior analysis prior 3. ベイズファクターの閾値 ◼ 例えば,𝐵𝐹10 > 10なら対立仮説の証拠, 𝐵𝐹10 < 1 なら帰無仮説の証拠とする。 10 ◼ 帰無仮説と対立仮説の閾値は必ずしも対称的でなくてもよい。 (研究の目的や計算コストを考慮して柔軟に設定する。偽陰性より偽陽性を減らしたい,など。) 4. サンプルサイズ𝑛 ◼ 様々な値を入れてみる。 – これらを決めてシミュレーションを行えば, 期待されるBFの分布や真陽性・真陰性・偽陽性・偽陰性の率を計算することができる。

26. 導入 NP検定力 固定n BFDA SBF SBF+maxN まとめ 26/44 シミュレーションの方法 – 以下の設定でシミュレーションを実行 ⚫ 効果量𝛿 = 0.5 (design prior) ⚫ 分析のための事前分布は𝑑 (Schönbrodt & Wagenmakers, 2018) ※分布でもよいがここでは点としている (退化分布という確率分布とみなせる) 1 ~ Cauchy(0, ) 2 ⚫ BFの閾値は6と1/6 ⚫ シミュレーション回数は1万回 シミュレーションの流れ (具体例) 1. 効果量の事前分布×2とBFの閾値を設定 ⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 = .05, 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 6 2. サンプルサイズ𝑛を適当に設定 3. 帰無仮説𝐻0 が真の場合のデータを生成 目標が達成できる まで設定を変えて 繰り返す 10,000回 繰り返す ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 介入群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛個の乱数を生成 介入群:Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 , 𝜎 = 1)から𝑛個の乱数を生成 ※ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。 4. 対立仮説𝐻1 が真の場合のデータを生成 5. それぞれのデータに対してBayesian t-testを行いBFを記録。 ⚫ このときに分析のための事前分布𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 を使う。 6. BFの分布・真陽性率・真陰性率・偽陽性率・偽陰性率を計算。 (i.e., 10,000回のうち何割が該当するかを仮説ごとに計算する。) 7. このときの𝑛およびパラメータを採用する。

27. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 27/44 シミュレーションの結果 • 真陽性率 = 21.1% • 偽陰性率 = 0.3% • 曖昧 = 78.5% • 真陽性率 = 84.0% • 偽陰性率 ≃ 0.0% • 曖昧 = 16.0% • 真陰性率 = 13.7% • 偽陽性率 = 0.9% • 曖昧 = 85.5% • 真陰性率 = 53.4% • 偽陽性率 = 0.6% • 曖昧 = 46.0% Schönbrodt & Wagenmakers (2018)のFig.3.を改変

28. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 28/44 まとめ アプリを使って計算 https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/ 達成したい真陽性率 想定する効果量 (点のみ) サンプルサイズの上限 BFの閾値 (対称な場合のみ) 分析のための事前分布(Cauchy)のスケールパラメータ 必要サンプルサイズとそのときの真陽性率

29. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 29/44 オープンエンドの逐次BFデザイン (SBF)

30. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 30/44 SBFデザインの考え方 – オープンエンドの逐次BFデザイン (open-ended sequential BF design; SBF) ⚫ BFがいずれかの閾値に達するまでデータを取り続けるデザイン。 ◼ 1人ずつではなく10人ずつ増やす,といったことも可能 (その方がより効率的) ⚫ 必ず𝐻0 か𝐻1 の証拠が得られる。(弱い証拠で終わることがない) ⚫ データ収集がいつ終わるかが事前に決まっていないという意味で「オープンエンド」 ◼ とはいえBFは究極的には0か∞のいずれかに向かってドリフトするのでいつかは必ず終わる。 ⚫ シミュレーションにより,真陽性・真陰性・偽陽性・偽陰性の率に加えて, 期待されるサンプルサイズの分布も事前に推測することができる。 ⚫ 固定nデザインよりも効率がよい。(平均サンプルサイズが小さい)

31. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 31/44 まとめ SBFデザインで必要なパラメータ – シミュレーションに必要な4つのパラメータ 1. 想定している𝐻1 のもとでの効果量の事前分布 ◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) 2. 実際のデータ分析で使用する事前分布 ◼ 例えば𝑑 ~ Cauchy(0, 1 ) 2 のようなdefault prior。 3. ベイズファクターの閾値 ◼ 例えば,𝐵𝐹10 > 10なら対立仮説の証拠, 𝐵𝐹10 < 1 なら帰無仮説の証拠とする。 10 4. サンプルサイズの下限𝑛𝑚𝑖𝑛 ◼ このデザインでは偽陽性・偽陰性はサンプルサイズが小さいときに生じやすいので, 小さすぎない最小値を設定する。 ◼ 例えば𝑛𝑚𝑖𝑛 = 20 ◼ 実際にシミュレーションをしてみて調整するのがよい。 – これらを決めてシミュレーションを行えば, 期待されるサンプルサイズの分布や真陽性・真陰性・偽陽性・偽陰性の率を計算できる。

32. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 32/44 まとめ シミュレーションの方法 – 以下の設定でシミュレーションを実行 (Schönbrodt & Wagenmakers, 2018) ⚫ 効果量𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) (design prior) ⚫ 分析のための事前分布は𝑑 ~ Cauchy(0, ⚫ BFの閾値は6と1/6 ⚫ 𝑛𝑚𝑖𝑛 = 20 ⚫ シミュレーション回数は1万回 シミュレーションの流れ (具体例) 1 ) 2 1. 効果量の事前分布×2とBFの閾値と最小サンプルサイズを設定 ⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 ~ Normal(0.5, 0.1), 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 6, 𝑛𝑚𝑖𝑛 = 20 2. 帰無仮説𝐻0 が真の場合のデータを生成 ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 介入群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 介入群:Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 , 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 ※𝛿𝑑𝑒𝑠𝑖𝑔𝑛 が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。 3. 対立仮説𝐻1 が真の場合のデータを生成 目標が達成できる 10,000回 まで設定を変えて 繰り返す 繰り返す BFが閾値に 達するまで 繰り返す 4. それぞれのデータに対してBayesian t-testを行いBFを記録。 ⚫ このときに分析のための事前分布𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 を使う。 5. BFがどちらの閾値にも達していなければ各群1人ずつ乱数を追加。 6. このときのサンプルサイズとBFを記録。 7. サンプルサイズの分布・真陽性率...などを計算。 (i.e., 10,000回分のデータを集計する。) 8. このときのパラメータを採用する。

33. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 33/44 まとめ シミュレーションの結果 真陽性率 = 97.2% H1が真のときのサンプルサイズ (両側合算) • 平均 = 53 • 中央値 = 36 • 80%の研究でn<74 偽陰性率 = 2.8% 偽陰性・偽陽性は初期段階で生じやすい 偽陽性率 = 6.2% H0が真のときのサンプルサイズ (両側合算) • 平均 = 93 • 中央値 = 46 • 80%の研究でn<115 真陰性率 = 93.8% Schönbrodt & Wagenmakers (2018)のFig.4.を改変

34. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 34/44 まとめ アプリを使って計算 https://martonbalazskovacs.shinyapps.io/SampleSizePlanner/ 達成したい真陽性率 想定する効果量 (点のみ) ※帰無仮説が真の場合を計算したいときは0にする。 BFの閾値 (対称な場合のみ) 分析のための事前分布(Cauchy)のスケールパラメータ ※少なくとも現時点ではサンプルサイズの下限は設定できない。 • • • • 平均サンプルサイズ 真陽性率 H1の証拠が得られる確率 H0の証拠が得られる確率

35. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 上限nの逐次BFデザイン (SBF+maxN) 35/44

36. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 36/44 SBF+maxNデザインの考え方 – 上限nの逐次BFデザイン (sequential BF design with maximal n; SBF+maxN) ⚫ SBFデザインに,サンプルサイズの上限を加えたもの。 ⚫ サンプルサイズが上限に到達しても閾値に達しなかった場合のみ弱い証拠で終わる。 ◼ ただし,その場合でも証拠の方向やBFの値の大きさは解釈可能。 ◼ 遅くともいつデータを集め終えるか見通しが立てられるのでメンタルに優しい(?) ⚫ シミュレーションにより,真陽性・真陰性・偽陽性・偽陰性の率や, 期待されるサンプルサイズの分布,弱い証拠で終わる確率を 事前に推測することができる。 ⚫ SBFデザインよりも効率がよい。(平均サンプルサイズが小さい) ⚫ 現時点ではアプリは対応していない。

37. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 37/44 まとめ SBF+maxNデザインで必要なパラメータ – シミュレーションに必要な5つのパラメータ 1. 想定している𝐻1 のもとでの効果量の事前分布 ◼ 例えば 𝑑 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) 2. 実際のデータ分析で使用する事前分布 ◼ 例えば𝑑 ~ Cauchy(0, 1 ) 2 のようなdefault prior。 3. ベイズファクターの閾値 ◼ 例えば,𝐵𝐹10 > 10なら対立仮説の証拠, 𝐵𝐹10 < 1 なら帰無仮説の証拠とする。 10 4. サンプルサイズの下限𝑛𝑚𝑖𝑛 ◼ 例えば𝑛𝑚𝑖𝑛 = 20 5. サンプルサイズの上限𝑛𝑚𝑎𝑥 ◼ 予算や研究協力者に関する制約などを根拠に決めてよい。 ◼ 例えば𝑛𝑚𝑎𝑥 = 100 – これらを決めてシミュレーションを行えば, 期待されるサンプルサイズの分布や真陽性・真陰性・偽陽性・偽陰性の率, 弱い証拠で終わる確率を計算できる。

38. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 38/44 まとめ シミュレーションの方法 – 以下の設定でシミュレーションを実行 (Schönbrodt & Wagenmakers, 2018) ⚫ 効果量𝛿 ~ Normal(𝜇 = 0.5, 𝜎 = 0.1) (design prior) ⚫ BFの閾値は30と1/6 (偽陽性を減らしたいが,1/30 にするとサンプルサイズが軽く数千を越えるため) ⚫ 𝑛𝑚𝑖𝑛 = 40, 𝑛𝑚𝑎𝑥 = 100 ⚫ 分析のための事前分布は𝑑 ~ Cauchy(0, ⚫ シミュレーション回数は1万回 1 ) 2 シミュレーションの流れ (具体例) 1. 効果量の事前分布×2とBFの閾値と最小・最大サンプルサイズを設定 ⚫ 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 ~ Normal(0.5, 0.1), 𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 ~ Cauchy(0, 1/ 2), 𝑇0 = 1/6, 𝑇1 = 30, 𝑛𝑚𝑖𝑛 = 40 , 𝑛𝑚𝑎𝑥 = 100 2. 帰無仮説𝐻0 が真の場合のデータを生成 目標が達成 できるまで 10,000回 設定を変えて 繰り返す 繰り返す ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 介入群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 ⚫ ⚫ 統制群:Normal(𝜇 = 0, 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 介入群:Normal(𝜇 = 𝛿𝑑𝑒𝑠𝑖𝑔𝑛 , 𝜎 = 1)から𝑛𝑚𝑖𝑛 個の乱数を生成 ※𝛿𝑑𝑒𝑠𝑖𝑔𝑛 が確率分布の場合はそこから1個の乱数を生成してそれを𝜇に代入。 3. 対立仮説𝐻1 が真の場合のデータを生成 BFが閾値に 達するか,𝑛が 上限に達する まで繰り返す 4. それぞれのデータに対してBayesian t-testを行いBFを記録。 ⚫ このときに分析のための事前分布𝛿𝑎𝑛𝑎𝑙𝑦𝑠𝑖𝑠 を使う。 5. BFがどちらの閾値にも達していなければ各群1人ずつ乱数を追加。 6. このときのサンプルサイズとBFを記録。 7. サンプルサイズの分布・真陽性率...などを計算。 (i.e., 10,000回分のデータを集計する。) 8. このときのパラメータを採用する。

39. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 39/44 まとめ シミュレーションの結果 (H1が真の場合のみを示す) 真陽性率 = 70.6% H1が真のときのサンプルサイズ (合算) • 平均 = 69 • 中央値 = 65 弱い証拠で終わる率 = 27.8% 偽陰性率 = 1.6% 上限に達したときのBFの分布も 計算できる。 Schönbrodt & Wagenmakers (2018)のFig.5.を改変

40. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ まとめ 40/44

41. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 41/44 まとめ – デザイン分析の特徴 ⚫ 起こり得る結果の割合 (i.e., long-term probability) を基準にすることに 合意するのであれば,様々な研究デザインに適用可能。 ⚫ 検定力分析の中身を理解するのにも有効。 ◼ どんなときに結果が信用できなくなるのかも調べられる。 (e.g., n増しによるType-I errorの増加,検定力不足によるType-SおよびType-M error) ⚫ ベイズファクターを使った研究デザインにも適用可能。 ◼ 想定する効果量の不確実性を考慮できる (i.e., design priors) ◼ より効率的な逐次デザインにも対応 適切かつ効率的な研究デザインを考えよう!

42. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 42/44 まとめ おまけ:SPARKing – SPARKing (Sampling planning after the results are known; Sasaki & Yamada, 2022) ⚫ 結果を見てからサンプルサイズの根拠をでっちあげること=QRPs (疑わしい研究行為) の一種 ⚫ 特に,αを補正せず有意になるまでデータを増やしてから検定力分析をしたことにするのは× ⚫ 潔白を積極的に示したければ事前登録するほかないか。 (それも完璧ではないが)

43. 導入 NP検定力 BFDA 固定n SBF SBF+maxN 43/44 まとめ おまけ:探索フェーズと確証フェーズの分離 – 二段階ベイズ逐次評価 (two-stage Bayesian sequential assessment; Stefan et al., 2022) ⚫ 探索フェーズでは柔軟にデータ収集・分析をし, 有望な結果が得られたら,手続きと分析法を固定して 確証フェーズに進む。 ⚫ 探索フェーズの情報を確証フェーズに活用することができる ので無駄が少ない。 ⚫ 手続きと分析法が確定するのでプレレジも容易。 ⚫ 柔軟に研究を進められるので生産性を損なわない。 Stefan et al. (2022) のFigure 1 ◼ 研究の初期段階では厳密なサンプルサイズ設計や事前登録をしなくてもよいため,「お作法」を窮屈に感じにくくなる? ⚫ 探索と確証を明確に区別できるので,探索的研究の正当な評価に繋がると期待。 私見 ⚫ BFDAと組み合わせるととても効率がよさそう。 ⚫ 一方で,伝統的な「予備実験→validation」と何が違うのかはきちんと考えたほうがよさそう。 ◼ 少なくとも,小サンプルの予備実験に基づいて検定力分析するよりはこちらのほうがよさそう。 ◼ 結局は追試が大事だよねってことで落ち着きそう。

44. 導入 NP検定力 BFDA 固定n SBF SBF+maxN まとめ 44/44 引用文献 Gelman, A., & Carlin, J. (2014). Beyond power calculations: Assessing Type S (sign) and Type M (magnitude) errors. Perspectives on Psychological Science, 9(6), 641–651. https://doi.org/10.1177/1745691614551642 Jeffreys, H. (1961). The theory of probability (3rd ed.). Oxford University Press. Kovacs, M., van Ravenzwaaij, D., Hoekstra, R., & Aczel, B. (2022). SampleSizePlanner: A tool to estimate and justify sample size for two-group studies. Advances in Methods and Practices in Psychological Science, 5(1), 251524592110540. https://doi.org/10.1177/25152459211054059 Lee, M. D., & Wagenmakers, E.-J. (2013). Bayesian cognitive modeling: A practical course. Cambridge, England: Cambridge University Press. (リー,M. D.・ワーゲンメイ カーズ,E.-J. 井関龍太 (訳) (2017).ベイズ統計で実践モデリング――認知モデルのトレーニング―― 北 大路書房) Sasaki, K., & Yamada, Y. (2022, February 28). SPARKing: Sampling planning after the results are known. https://doi.org/10.31234/osf.io/ngz8k Schönbrodt, F. D., & Wagenmakers, E. J. (2018). Bayes factor design analysis: Planning for compelling evidence. Psychonomic Bulletin and Review, 25(1), 128–142. https://doi.org/10.3758/s13423-017-1230-y Stefan, A., Lengersdorff, L., & Wagenmakers, E. (2022, March 3). A two-stage Bayesian sequential assessment of exploratory hypotheses. https://doi.org/10.31234/osf.io/qwuyf