まずはオープンデータから!──高めよう信用性,広めよう二次分析──

5.6K Views

September 10, 20

スライド概要

2020年9月9日に行われた日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」での発表に使ったスライドです。質問・ご意見等がございましたらTwitterアカウント (@mutopsy) もしくはメール(h.muto[at]zm.commufa.jp)等でお知らせください。
発表動画:https://youtu.be/cUs8DTEC9Og

※このスライドは,もともとSlidshareに公開していたものを2022/3/14にドクセルに移行したものです。

追記:このスライドに関連した論文が出版されました: 武藤 拓之 (2022). データ・マテリアル・分析スクリプトのオープン化が拓く心理学の未来 科学, 92(9), 800-805. http://hdl.handle.net/2433/276378

profile-image

大学で研究と教育をしている小さな生き物です。心理学の科学的方法(数理&統計モデリング・実験法・心理測定論・仮説検定・ベイズ統計学・再現性と信用性の向上・科学哲学)とその実践(特に知覚・認知・数理心理学)に関心があります。

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 1/37 武藤 拓之 (Hiroyuki Muto) 京都大学こころの未来研究センター 発表動画: https://youtu.be/cUs8DTEC9Og

2.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 2/37 この発表の位置づけ  発表者の立ち位置 − 若手研究者。 − 研究分野は知覚・認知心理学。 − 仮説検定や統計モデリング等の方法論にも関心があります。 宣伝:公募シンポ「心理学の諸領域におけるベイズ統計モデリングの実践」(SS-019) − 再現可能性は高ければ高いほど良いに決まっているので, より良い方法があるなら取り入れたい,というスタンス。 本発表の趣旨 再現性問題への取り組みとして比較的簡単に実施可能な オープンデータについて,その意義と実践法を解説する。

3.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 そもそも オープンデータって何? 3/37

4.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 4/37 オープンデータの位置づけ ※武田 (2018) および三浦 (2018) を参考にした。 オープンサイエンス 科学研究をより開かれた活動へと変革していく運動 (三浦, 2018) オープンアクセス • 論文などの学術的な情報を 無償で公開 • プレプリントの公開,OA誌等 データ中心科学 • データドリブンの探索的方法 (「第四の科学」) • ビッグデータの分析など 広義のオープンデータ • (狭義の)オープンデータ • オープンスクリプト • オープンマテリアル 市民科学 • 市民の科学活動への参加 • 市民と研究者の協働

5.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 5/37 オープンデータの位置づけ ※武田 (2018) および三浦 (2018) を参考にした。 オープンサイエンス 科学研究をより開かれた活動へと変革していく運動 (三浦, 2018) オープンアクセス • 論文などの学術的な情報を 無償で公開 • プレプリントの公開,OA誌等 データ中心科学 • データドリブンの探索的方法 (「第四の科学」) • ビッグデータの分析など 広義のオープンデータ • (狭義の)オープンデータ • オープンスクリプト • オープンマテリアル 市民科学 • 市民の科学活動への参加 • 市民と研究者の協働

6.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 広義のオープンデータの中身 1. (狭義の)オープンデータ ← 個人的にはこれが一番大事だと思う − 実験・調査協力者から得たデータセットの公開 2. オープンスクリプト − 分析で使用したコード等の公開 3. オープンマテリアル − 研究で用いた刺激・項目・プログラム等の公開 6/37

7.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 なんでオープンデータが いいの? 7/37

8.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 8/37 オープンデータの現状  ローデータの公開を推奨or義務づける雑誌が増えている − “To encourage meta-analysis and to help everyone understand data better, authors of all published papers will be asked to make their raw data publically available (unless doing so is prohibited for some good reason).” (Sloman, 2015)

9.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 オープンデータの現状  本邦でもオープンデータを勧める声 − 「日本心理学会や心理学関連の学術 誌に掲載された論文は、本書のように 生データや分析のためのコードを公開 し、読者が分析結果を再現・改良・発 展できるようにすべきである。オープン データ&オープンスクリプトは、研究の透 明性・再現性・議論の深化にとって極 めて有用である。」(豊田, 2018) 9/37

10.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 10/37 オープンデータの現状  データ論文のみを扱う雑誌もある − The Journal of Open Psychology Data (JOPD) features peer reviewed data papers describing psychology datasets with high reuse potential. https://openpsychologydata.metajnl.com/

11.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 オープンデータの意義  信用性の向上 − 研究の透明性や方法再現性,結果再現性を含む, 科学的知見の信用性 (credibility) の向上に貢献。  二次分析の促進 − オープンデータの二次分析により新たな知見が獲得可能 e.g., メタ分析・探索的研究・統計モデリング研究 11/37

12.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 なんでオープンデータが 信用性を高めるの? 12/37

13.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 科学的知見の信用性の評価次元 (LeBel, McCarthy, Earp, Elson, & Vanpaemel, 2018) 1. 方法とデータの透明性 (method and data transparency) 2. 分析の再生性 (analytic reproducibility) 3. 分析の頑健性 (analytic robustness) 4. 効果の再現性 (effect replicability) データ・スクリプト・マテリアルのオープン化はこれらに貢献 13/37

14.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 14/37 1. 方法とデータの透明性 研究デザインの詳細や分析方法の選択理由の情報, およびデータは利用可能か?  シンプルな解決法:論文に詳細をちゃんと書く − 方法や結果のセクションに語数制限を設けない雑誌もある (e.g., Psychological Science) − とはいえ情報を余すことなく記載するのは現実的に困難 (実際に,研究方法や分析方法の情報が不十分な論文をたまに見かける)  オープンデータ&スクリプト&マテリアルで補強できる − 論文で報告されていない情報も確認できる。 (e.g., 個人差,統計モデルの仮定やp値の補正法,刺激や質問項目の詳細)  事前登録(プレレジ・レジレポ)も有効 − HARKingなどのQRPsの可能性をある程度潰せる

15.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 2. 分析の再生性 同じデータを同じ方法で分析したら, 報告されている通りの結果が得られるか?  オープンデータの役割 − そもそも元データが利用できないと検証困難  オープンスクリプトの役割 − 論文に書かれている通りに同じデータを分析しても, 論文と同じ結果が得られないことがある。 (e.g., Hardwicke, et al., 2018; Hardwicke, et al., 2020) − データが非公開でもスクリプトさえあれば 分析の誤りなどにある程度気付くことができる。 15/37

16.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 16/37 3. 分析の頑健性 分析方法の違いに対して頑健か?  分析方法は無数に存在する − 外れ値の基準,前処理の方法,モデル選択,etc... − 反応時間分析の自由度は高い (Fernández & Vadillo, 2020) − 同じデータから異なる結論が導かれうる。 (e.g., Michaelson & Munakata, 2020; Silberzahn et al., 2018) − 1本の論文内であらゆる分析結果を報告するのは困難 (せいぜい脚注や付録として結果の一部を記述するぐらい)  オープンデータの役割 − 少なくともデータが利用可能であれば第三者が検証可能 − 後で提案された分析方法を使って再分析することも可能

17.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 17/37 4. 効果の再現性 別のサンプルでも一貫した効果が認められるか?  解決法①:追試 − 直接追試に必要な方法の情報が欠落している場合がある。 (e.g., 杣取・国里, 2019) → オープンマテリアル(e.g., 刺激・実験プログラム)で解決 − 同じ分析方法で比較できるとは限らない。 (e.g., 元論文の分析方法に記載漏れや誤りがある場合) → オープンデータ&オープンスクリプトで解決  解決法②:メタ分析 − メタ分析に必要な情報が欠落している場合がある。 − 個々の研究の信用性を考慮できない。(LeBel et al., 2018) → 元論文のデータがあればより豊かなメタ分析ができる。

18.

18/37 日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 それぞれの貢献まとめ (発表者の主観に基づく) 方法とデータ の透明性 分析の 再生性 分析の 頑健性 効果の 再現性 データ 〇 ◎ ◎ 〇 スクリプト 〇 〇 マテリアル 〇 〇 〇 ◎:必須 〇:貢献 ローデータの公開は比較的低コストな割に信用性に広く貢献!

19.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 どうやって データを公開するの? 19/37

20.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 20/37 データの共有方法  データリポジトリの活用 − いろんなリポジトリがある。 − 発表者はOpen Science Framework (OSF)を愛用。  DOI(恒久的な識別子)を付与できる  ライセンスの種類を指定できる  変更履歴が残る(古いバージョンも残しておける)  実験心理学で扱うようなデータなら容量的にも問題なし

21.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 21/37 Open Science Frameworkの活用 ↑新規プロジェクトの作成 プロジェクト 一覧

22.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 Open Science Frameworkの活用 公開/非公開の切り替え 申請すればDOIを付けられる ライセンスの種類を指定できる ・データ ・スクリプト ・マテリアル 22/37

23.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 ローデータ (csvファイル) の共有例 23/37

24.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 24/37 データの種類  ローデータ (情報量:大) − 手を加えられていない一次データ。 − 試行ごとの反応時間や正否,各質問項目の評定値など。  集計データ (情報量:小) − ローデータを加工して情報を集約したデータ。 − 条件ごとの平均反応時間や正答率,評定値の平均値など。 • 集計データからローデータを復元することは一般にはできない ので,特別な理由がなければローデータを公開すべき。 • ローデータから集計データを生成するスクリプトと集計データも 併せて公開するとなお良い。

25.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 マテリアル(実験刺激)の共有例 25/37

26.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 スクリプト (Rコード) の共有例 26/37

27.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 27/37 SPSSとHADのスクリプト共有法  SPSS − 分析方法を指定した後で「OK」ではなく「貼り付け」を押すと, シンタックス(=スクリプト)を出力できる。 − シンタックスを保存しておけば何度でも同じ分析を実行可能

28.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 28/37 SPSSとHADのスクリプト共有法  HAD (version 17.00で確認) − 「Ctrl + R」で分析履歴のシートが表示される。 − 再実行したい分析の「コード」のセル上で右クリックして 「分析コードを実行」を選択すると同じ分析が実行できる。 − ライセンスに気を付ければxlsmファイルの再配布も可能 (see https://norimune.net/696) − HAD2Rの機能を使えばRコードとして出力可能 (一部の分析のみ)

29.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 オープンデータの副次的なメリット  データ等をオープンにすると自分にとっても役に立つ − 第三者に見られる前提で作業すれば, 必然的にデータセットやスクリプトの可読性が上がる。 → エラー防止に繋がる − リバイズするときにも便利。 29/37

30.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 もっと踏み込んだ方法 (中~上級者向け) − R Markdownを使って, データの読み込み・整形・分析・ドキュメント化 といった全ての工程を再生可能にする試みも (e.g., 高橋, 2018) − 実験プログラム・スクリプト等の動作は環境依存 → Dockerを使って環境ごと共有する (e.g., 国里, 2019, 2020) https://kunisatolab.github.io/main/how-to-reproducible-analysis.html 30/37

31.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 いつやるの? − 始めから公開する前提で, データ・スクリプト・マテリアルをきちんと整理しておき, なるべく早くアップロードしておいたほうが良い。 (後からやろうとすると面倒くさくなって結局できない) − 発表者は,論文化できるという確信を持った時点で OSFにデータ等を非公開設定で随時アップロードし, 論文を投稿した時点で公開設定に変更することが多い。 − ついでにプレプリントもアップロードするとなお良い。 (PsyArXivはOSFと紐づけられる) − プレレジもOSFでできます。(2020/9/10追記) 31/37

32.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 二次分析って? 32/37

33.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 33/37 オープンデータを使って新たな知見を生み出す − 新規にデータを収集しなくても, 既存のデータを二次分析して 新しい知見を得ることができる。 − 新規のデータを取得するのに 比べてコストがかからない。 − パンデミック下でも実施可能。 − 自分自身で二次分析する 気がなくても,自分のデータ を使った面白い研究を 誰かがしてくれるかもしれない。 https://kunisatolab.github.io/main/secondary_analysis.html ↑もっと詳しく知りたい方には 国里先生のスライドがオススメ

34.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 二次分析の例 - 1  武藤 (2018) − 傾いた文字が正像か鏡像かを判断する, 典型的な心的回転実験のデータを収集。 − 既存のモデル (Searle & Hamm, 2012) を 階層ベイズモデルに拡張する方法を紹介。 − オープンデータ。  Muto (in press) − オリジナルのモデルの問題点を改善した 新しいモデルを提案。 − 武藤 (2018) のデータを再分析し, 提案モデルの優位性を実証。 34/37

35.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 35/37 二次分析の例 - 2  武藤 (2020, 日本行動計量学会第48回大会) − キューブ刺激を用いた心的回転実験の2つのオープンデータ を使って,反応時間分布の生成過程を検証した。 − どちらのデータを使っても同様の結果が得られた。

36.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 36/37 教育におけるオープンデータの利用可能性  統計教育における利点 (妄想) − 学生のテーマに近いデータを使って分析ができる。 − 実験実習とセットでなくても良い。 − 既に公刊されている論文のデータを使って 分析の再生性・頑健性を確認する方法を学べる。 → 同じ結果が得られなかったときにその原因を考察できる。

37.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 37/37 まとめ オープンデータのいいところ − 比較的ハードルが低く,個人レベルですぐ実施できる。 − 研究の信用性を高めることができる。 − より丁寧にデータを扱えるようになる。 − 二次分析研究へと発展させられる。 − 教育にも有効活用できる可能性がある。 Thank you!

38.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 38/37 引用文献 (1/2) Fernández, L. M., & Vadillo, M. A. (2020). Flexibility in reaction time analysis: Many roads to a false positive? Royal Society Open Science, 7(2), 190831. Ganis, G., & Kievit, R. (2015). A new set of three-dimensional shapes for investigating mental rotation processes: Validation data and stimulus set. Journal of Open Psychology Data, 3(1), e3. Hardwicke, T. E., Bohn, M., MacDonald, K. E., Hembacher, E., Nuijten, M. B., Peloquin, B., … Frank, M. C. (2020). Analytic reproducibility in articles receiving open data badges at Psychological Science: An observational study. https://doi.org/10.31222/osf.io/h35wt Hardwicke, T. E., Mathur, M. B., MacDonald, K., Nilsonne, G., Banks, G. C., Kidwell, M. C., … Frank, M. C. (2018). Data availability, reusability, and analytic reproducibility: evaluating the impact of a mandatory open data policy at the journal Cognition. Royal Society Open Science, 5(8), 180448. 国里愛彦 (2019).再生可能なデータ解析入門 Retrieved from https://kunisatolab.github.io/main/how-toreproducible-analysis.html(2020年8月28日) 国里愛彦 (2020). 再現可能な心理学研究入門 専修大学人間科学論集心理学篇, 10, 21-33. LeBel, E. P., McCarthy, R. J., Earp, B. D., Elson, M., & Vanpaemel, W. (2018). A unified framework to quantify the credibility of scientific findings. Advances in Methods and Practices in Psychological Science, 1(3), 389–402. Michaelson, L. E., & Munakata, Y. (2020). Same data set, different conclusions: Preschool delay of gratification predicts later behavioral outcomes in a preregistered study. Psychological Science, 31(2), 193–201. 三浦 麻子 (2018). 心理学におけるオープンサイエンス── 「統計革命」のインフラストラクチャー── 心理学評論, 61(1), 312. 武藤 拓之 (2018). 傾いた文字は正しい文字か?鏡文字か?──心的回転課題の反応時間を説明する混合プロセスモデル ── 豊田 秀樹 (編著) たのしいベイズモデリング──事例で拓く研究のフロンティア── (pp.79-92) 北大路書房

39.

日本心理学会第84回大会 大会企画シンポジウム「若手が聞きたい再現可能性問題の現状とこれから」 39/37 引用文献 (2/2) 武藤 拓之 (2020). 心的回転に対するdiffusion modelingの有効性の検証 日本行動計量学会第48回大会抄録集 Muto, H. (in press). Evidence for mixed processes in normal/mirror discrimination of rotated letters: A Bayesian model comparison between single- and mixed-distribution models. Japanese Psychological Research. Muto, H., & Nagai, M. (2020). Mental rotation of cubes with a snake face: The role of the human-body analogy revisited. Visual Cognition, 28(2), 106–111. Searle, J. A., & Hamm, J. P. (2012). Individual differences in the mixture ratio of rotation and nonrotation trials during rotated mirror/normal letter discriminations. Memory & Cognition, 40(4), 594–613. Silberzahn, R., Uhlmann, E. L., Martin, D. P., Anselmi, P., Aust, F., Awtrey, E., … Nosek, B. A. (2018). Many analysts, one data set: Making transparent how variations in analytic choices affect results. Advances in Methods and Practices in Psychological Science, 1(3), 337–356. Sloman, S. A. (2015). Opening editorial: The changing face of Cognition. Cognition, 135, 1–3. 杣取 恵太・国里 愛彦 (2019). アンヘドニア(anhedonia)と遅延割引──Lempert & Pizzagalli(2010)の追試── 心 理学評論, 62(3), 231-243. 高橋 康介 (2018). 再現可能性のすゝめ── RStudioによるデータ解析とレポート作成── 共立出版 武田 英明 (2018). ORCID とオープンサイエンス Retrieved from https://www.slideshare.net/takeda/orcid85786283(2020年8月28日) 豊田 秀樹 (2018). たのしいベイズモデリング──事例で拓く研究のフロンティア── 北大路書房