Precisionのいろいろな考え方を学んで、 信頼区間を見直すことで、imprecisionを理解しよう 湯浅秀道 できる限り、若干説明が異なる、いろいろな統計学者の意見を並べた。イメージも重視した。私見は、ピンク地とした。 1
precision・ accuracy まず、用語の理解から。 precision・ accuracyに関して、一般的には、以下の図のイメージとなる。 精確な定義は、分野などによって異なるのが現状である(次のスライドで説明)。 Precision:互いの距離 Accuracy:ターゲットとの距離 Accuracy 確率密度 Accuracy 基準値 Precision precision 2 https://ja.wikipedia.org/wiki/%E6%AD%A3%E7%A2%BA%E5%BA%A6%E3%81%A8%E7%B2%BE%E5%BA%A6
precision・ accuracy 疫学辞典第5版より: accuracy 正確性: 1.測定された測定値や推計値が、それが測定された特性の真の値をどれだけ言い表しているかの程度のこと 。error 誤差 の相対的欠知。 2.対象とする疾患の有無を正しく分類できる診断用検査の能力。ある検査の診断能は、敏感度と特異度で表す。 precision 精度 1.ランダム誤差が相対的に少ないこと 。バイアスまたは非ランダム誤差の少ないことを指す。原則として原因探求研究 において、内的妥当性は精度より優先しなければならない。しかし,時には,多少のバイアスがあっても精度の高い推定値 のほうが、バイアスはないがきわめて精度の低い推定値より望ましいかもしれない。 2.統計学において、精度を示す1つの尺度は、計測値や推定値の分散の逆数である。精度の低さを示す1つの尺度は、計 測値の標準誤差、すなわち同一量を繰り返し測定した場合の標準偏差である。 3.定義や記述における精密さの質。精度の1つの尺度は、ある計測値を選定したときに、それから区別して選定できる値 の数であり、時には、計量における有効数字の桁数によって示される。精度は、ACCURACY正確性を意味するわけではな い。 しかし、正確性 αccuracyと精度 precisionは、しばしば同意語として用いられる。 ウィキペディアより: accuracy正確度とは、その値が「真値」に近い値であることを示す尺度である。系統誤差の小ささを言う。(確度とも呼 ぶ。) 「JIS Z 8101 統計−用語及び記号」:精確さ、総合精度(accuracy)は真の値との一致の程度と定義され、真度 (trueness) と精度 (precision) とを結合したものと定義される。 「JIS Z 8103 計測用語」:精度 (accuracy) は真の値との一致の度合いと定義され、正確さ (trueness) と精密さ、精密 度 (precision) を含めたとされる。 precision精度とは、その複数回の値(複数回の測定または計算の結果)の間での互のばらつきの小ささの尺度である。偶 然誤差の小ささを言う。(精密度(せいみつど)、再現性とも呼ばれる。) 疫学辞典第5版 https://jeaweb.jp/files/activities/dictionary_of_epidemiology.pdf https://ja.wikipedia.org/wiki/%E6%AD%A3%E7%A2%BA%E5%BA%A6%E3%81%A8%E7%B2%BE%E5%BA%A6 3
precision・ accuracy ウィキペディア英語版より: 一連の測定において、accuracyさとは測定値が特定の値に近いことであり、precisionとは測定値が相互に近いことである。 accuracyには2つの定義がある。 accuracyが低いと、結果と「真のtrue 」値との間に差が生じる。これをISOでは「真度trueness」と呼んでいる。 また、ISOではaccuracyを、上記の両方のタイプの観測誤差(ランダム誤差とシステマティック誤差)の組み合わせを記述 するものと定義しているため、高い精度には高い精度と高い真度の両方が必要となる。 precisionとは、ランダムな誤差を記述するもので、統計的なばらつきの尺度となる。 もっと簡単に言えば、同じ量を繰り返し測定したデータポイントのセットがある場合、その平均値が測定されている量の true valueに近ければ、そのセットはaccurateであると言うことができ、一方、値が互いに近ければ、そのセットは preciseであると言うことができる。上記の最初の、より一般的な"accuracy"の定義では、2つの概念は互いに独立してい るので、特定のデータセットは、 accurateであるとも、 preciseであるとも、その両方であるとも、あるいはどちらでも ないとも言える。 research hubsより: このセクションでは、信頼区間のaccuracyとprecisionについて説明。 accuracyは、信頼区間が真の母数が含まれているかどうかという観点で定義されている。 precisionは、信頼区間の幅を指す。 ランダムエラーと言えば、どうしても、データの値の距離というより、真の値からの誤差がランダムに起っているというイメージし かでない。すなわち、 precisionを測定間の距離と定義すると、ランダム誤差と言われてもピンとこない。また、分散も、平均値から の差の2乗の総和のため、やはり、真の値(実際は、不明で、測定値の平均値、不偏分散?)からの距離のため、やはり、 precision と言われても(^^;。 ウィッキ英語版 research hubs https://en.wikipedia.org/wiki/Accuracy_and_precision http://researchhubs.com/post/ai/data-analysis-and-statistical-inference/accuracy-vs-precision.html 4
Accuracy, Trueness, Error, Bias, Precision, and Uncertainty もう少し、用語を増やしてみる。このスライドは、イメージのみである。 Trueness:正確さ・ 無限にある結果の平 均値と基準値との一 致の近さ(以前、こ れを accuracy と呼ん でいたことがある)。 Trueness・真度 Error イメージ:ランダムエラー Bias イメージ:系統的エラー Precisionが増加 Weitzel: http://tdrm.aoac.org/rm_docs/RM%20Documents/ILM_Accuracy_Trueness_201http://kuchem.kyotou.ac.jp/ubung/yyosuke/chemmeth/chemmeth03.pdf5_Weitzel.pdf Truenessについて http://kuchem.kyoto-u.ac.jp/ubung/yyosuke/chemmeth/chemmeth03.pdf 5
bias・error Waltherら: Bias バイアス・偏り: 測定バイアス:測定値やテスト結果の母平均と、 受け入れられている基準値や真値との差。主に、誤った測定装置や測定手順に起因する。 サンプリングバイアス:対象となる母集団を代表しないサンプリングに起因する。 推定バイアス:系統誤差とも呼ばれ、反復した推定値の平均が真値から乖離する推定方法を指す。 Precision 精度: ランダムな誤差は、変動性や分散とも呼ばれるが、その反対の精度と定義されることも多い。ランダムな誤差がないことを指す。バイ アスとは異なり、その大きさは推定値(または観測値)にのみ依存し、真の値には全く依存しない。 したがって、精度は「推定手順の統計的分散」の尺度。全体の分散は、測定誤差、サンプルのばらつき、推定のばらつきによって生じ るばらつきから生じます。 Accuracy: Biasとprecisionの組み合わせが、推定器の性能を決定する。推定量のbiasとprecisionが低ければ低いほど、正確な点推定を行うため の全体的な能力は低下する。したがって、 accuracyは、推定値(または観測値)と真の値の間の全体的な距離として定義される。こ の距離の数学的定義には様々なものがあり、 biasとprecisionを明示的に組み合わせて数学的定義をしているものもあります。 疫学辞典第5版: Error 誤差: 偽りの、あるいは誤った測定結果。健康科学、生命科学、社会科学の研究では一般に 2種類の誤差が生じる可能性がある。 1.偶然誤差 random error :ある測定値において他の測定値あるいは変数と明らかな関係がなく 一般的にchance偶然によると考え られる変動の部分。 2.系統誤差 systematic error :常にある 一定方向へ偏っているような誤差。 GRADEアプローチ・コクラン: バイアスの評価は、真の値がわからないので直接評価不能。よって、バイアスのリスクを評価する。 Waltherら http://viceroy.eeb.uconn.edu/estimates/EstimateSPages/EstSUsersGuide/References/WaltherAndMoore2005.pdf 疫学辞典第5版 https://jeaweb.jp/files/activities/dictionary_of_epidemiology.pdf 6
分散 疫学辞典第5版: 分散 VARIANCE: 一組の観察結果から得られるデータ変動の指標で、平均値との差をとって2乗したものの総和をデータの自由度で除したもの。 precision 精度 2.統計学において、精度を示す1つの尺度は、計測値や推定値の分散の逆数である。精度の低さを示す1つの尺度は、計測値の標準 誤差、すなわち同一量を繰り返し測定した場合の標準偏差である。 ウィキペディアより: 数学の統計学における分散(ぶんさん、英: variance)とは、データ(母集団、標本)、確率変数(確率分布)の標準偏差の自乗のこ とである。分散も標準偏差と同様に散らばり具合を表し、標準偏差より分散の方が計算が簡単なため、計算する上で分散を用いること も多い。分散は具体的には、平均値からの偏差の自乗の平均に等しい。データ x1, x2, …, xn の分散 s2 は ここで x は平均値を表す。分散が 0 であることは、データの値が全て等しいことと同値である。データの分散は二乗平均平方根から 平均の2乗を引いた値に等しくなる。確率変数 X の分散 V[X] は、X の期待値を E[X] で表すと V[X] = E[(X − E[X])2] となる。 統計学では、記述統計学においては標本の散らばり具合を表す指標として標本分散(ひょうほんぶんさん、英: sample variance)を、 推計統計学においては不偏分散(ふへんぶんさん、英: unbiased variance)・不偏標本分散(ふへんひょうほんぶんさん、英: unbiased sample variance)を用いる(後で説明)。 分散は、平均値から測定値の差を求める。この差が大きければ、当然、ばらつきが多いということになる。差を単に足すと、プラス マイナスで、0になるので利用できない。そのため、2乗してプラスにしてから合計する。後のスライドでもでてくるが、 Ranstam によると、全分散がランダム分散(測定時におこるランダムな誤差)と系統的分散(母集団が、均一な集団か不均一な集団化で、そ こから得られるサンプルにおいて均質性が異なる)の両方(一般的に両者を「誤差」というカテゴリーでまとめている)に影響され ることを示している。」としており、Precisionは、ランダムエラーなので分散で示されると違う考えもある。 疫学辞典第5版 https://jeaweb.jp/files/activities/dictionary_of_epidemiology.pdf ウィキペディアより: https://ja.wikipedia.org/wiki/%E5%88%86%E6%95%A3_(%E7%B5%B1%E8%A8%88%E5%AD%A6) 7
imprecision imprecisionの日本語訳:一般的に不正確が多く用いられている。「正確」という表現は、「何が正しいのかの基準が明確な場合に、 間違いがなくて正しいこと」を意味するため、真の値が不明な医療の場面なので、precisionが「精度」と訳されることが多いことよ り、「不精確さ」と訳すことを、GRADEアプローチを日本に普及させた相原先生が提案。 GRADEアプローチ: 不精確さ、または、ランダムエラーは、エビデンスの確実性を評価する要因の一つ。(GRADE guidelines 6. には、定義らしいの は、存在しなかった・GRADE guidelines: 3の参考文献の記載で、 GRADE guidelines 6.のタイトルは、imprecision (random error)が仮だった ) Anttilaら: GRADEの不精確さは、統計的検出力、信頼区間、および指定された制限(つまり、クリティカルマージン)の複数の側面の組み合わ せ。「不精確さ」は、GRADEフレームワークでは統計での意味を持たない(次スライドへ)。 Schünemann: Anttilaらの論文への反論として 不確実性uncertaintyは、不精確さimprecision (ランダムエラー)や偏りbias(システマティックエラー)の結果として生じること がある。 相原教科書: 研究に比較的少数の患者と少数のイベントが含まれていて、そのために効果推定値を取り巻く信頼区間が広くなっているならば、そ のデータは不精確(imprecise)である。 Imprecisionの定義はなく、 GRADEアプローチによる判定方法に従うものを、imprecisionと定義する感じ: 絶対的な効果の95%信頼区間(CI)が閾値・効果なしとの関係・サンプルサイズ(イベント数が少ない場合は注意)より判定。 エビデンスの確実性の要因を分類するならば、ランダムエラー(不精確さ)、系統的エラー(リスクオブバイアス・非直 接性・出版バイアス)となる。説明のつかない非一貫性は、説明がつかないので、ランダムエラーのような気もするが、 説明がつけば、系統的エラーになる?。 GRADE guidelines 6. https://www.jclinepi.com/article/S0895-4356(11)00206-X/fulltext Anttilaら: https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext Schünemann Interpreting GRADE's levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less 8 emphasis on imprecision? 相原守夫.診療ガイドラインのためのGRADEシステム第3版・内科医のエビデンスに基づく医療情報
imprecision Anttilaら: GRADEの不精確さは、統計的検出力、信頼区間、および指定された制限(つまり、クリティカルマージン)の複数の側面の組み合わ せ。 「不精確さ」は、GRADEフレームワークでは統計での意味を持たないが、充分な定義がされてない。 統計では、「accuracy」は、パラメータ値と推定値の間の近さを表すおなじみの概念で、バイアスとサンプル精度( sample precision)の両方を含む。 算術平均で考えると、 バイアスは、期待される標本平均( sample mean)と母集団平均(真の値)との差として表される。 bias=標本平均ー母集団平均(式1) サンプル精度(Sample precision・標本の精度と思われる)とは、標本平均に対する観測値の分散のことである。 precision=分散=1/(n-1)× (観測値ー標本平均)の合計値(式2) よって、accuracyは、式2の中に式1を組み合わせるて式3のようになる。 accuracy= precision( biasが式内に含まれる)(式3) この例では、bias、 precision、accuracyは、明示されて、概念間の関係も明確であることがわかる。 一方、GRADEアプローチによる、imprecisionは、信頼区間を用いる。信頼区間は、実際には、標本平均や標本変動にある程度のバ イアス(系統的バイアスではないか:湯浅)があると思われるにもかかわらず、バイアスがないという前提で算出することがよくあ る。よって、 信頼区間では捉えられない不確実性がある(無い場合をaccuracyとしているのではないか:湯浅)ことになる。 よって、GRADEアプローチの示している、imprecisionという用語は、 “conclusiveness”のが良いと思う。 Anttilaらは、そもそも、「accuracyは、バイアスとsample precisionの両方を含む」という考えであることに注意。 これに対して、Schünemannが、誤解して解釈していると反論している(不確実性uncertaintyは、不精確さimprecision (ランダム エラー)や偏りbias(システマティックエラー)の結果)。しかし、これらの議論を、知っておくことは重要と考えて紹介した。 precisionは、ランダムエラーなので分散で示され(諸説あり)、正規分布を土台として、統計学的な計算式で定義され ることが多い。一方、imprecisionは、統計学的な計算式ではなく、ある概念として捉えた信頼区間と閾値、ならびにサ ンプルサイズとイベント数で評価されることを理解しよう(後述)。 Anttilaら: https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext Schünemann Interpreting GRADE's levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size9 or less emphasis on imprecision?
信頼区間とは Moreyらの解説より定義を確認 定義:パラメータ(一般的にはθと呼び、母平均、中央値、分散、確率、その他の未知の量)のX%信頼 区間とは、θのすべての可能な値に対して、繰り返しのサンプリングでθの真の値を含む確率がX%とな る手順で生成された区間(L,U)のこと (Neyman 1937)。 同じ正規母集団(真の平均値θがわかっている)から標本抽出を繰り返えすと毎回多くが異なる値となる。それを、ある 式を用いて区間を決める。たとえば、図1だと100回中15回もθを含んでしまう(図では3つだが、左のように置き換え て)、図2だと1回もθを含まない、図3だとちょうど100回中5回だけを含まない。と言っても、100%の確率で、 100 回中5回だけを含まないということでもなく、これも確率分布(厳密でないかも)に従うが、ともかく、そんな感じ。 図1 θ 図2 θ 図3 θ 頻度論の立場において「95%の確率で母平均が含まれる」は誤りであり、上の概念図からわかるように、「パラメータθを定数」と 考えるので動かないため「信頼区間の中で、母平均は含まれるか含まれないかのいずれかしかない」と考えるべきであるとされて いるようだ。ベイズでは、パラメータを確率変数としてデータを定数とするので、 「95%の確率で母平均が含まれる」となる。 Moreyら https://link.springer.com/article/10.3758/s13423-015-0947-8 ベイズ:https://ai-trend.jp/basic-study/bayes/bayes_interval_estimation/ 10
信頼区間とは Ronmeno・いちばんやさしい、医療統計の解説より計算式の基本 母平均:μ 標本平均: x sqrt(A)はAの平方根(√、ルート) 偏差:データの各値xiとxとの差( Xi- x)。偏差の総和は 0 であるので、偏差の平均ももちろん0。 分散σ2:偏差2乗の平均値(ここまでは、先のスライドの説明と同じ・後で説明するが母分散)。 標準偏差SD:分散の正の平方根( sqrt(σ2) )。データの散らばり・バラツキの指標。 標準誤差SE:SD/sqrt(n)= sqrt(σ2)/sqrt(n)= sqrt(σ2/n) 平均値の信頼性を示す指標である。 Ronmeno 中心極限定理より、xは正規分布N(μ, sqrt(σ2/n) )に近づくので、 z=(x−μ)/ sqrt(σ2/n)は標準正規分布にしたがう 標準正規分布の95%を含むzの範囲を求めると、 標準正規分布表より、−1.96≤z≤1.96 ⇒ −1.96≤(x−μ)/ sqrt(σ2/n) ≤1.96 μ で展開すると、−1.96≤(x−μ)/ sqrt(σ2/n) ≤1.96 ⇒ x− 1.96×sqrt(σ2/n) ≤μ≤x+1.96× sqrt(σ2/n) ⇒信頼区間:正規分布で95%の場合、95%CI=平均値±1.96×SE 標準偏差が小さくなるほどデータは平均値の周りに集中しており、散らばりの度合い(分散)が小さくなる。 データの散らばり程度が小さければ標準偏差・標準誤差が小さい。そして、データの数が大きいと、標準誤差 は小さくなる。その場合、信頼区間のは幅も狭くなる。 ともかく、どうもZ値が95%に含まれる式から、平均値で展開して計算式を変形して、「ー1.96×SE~平均値~ +1.96×SE 」の式を求めている。よって、95%に含まれるのは、1つの標本平均xを使ったz値であり、μではない。 そのどこに、「μのすべての可能な値に対して、繰り返しのサンプリングでμの真の値を含む確率がX%となる手順で生成 された区間(L,U)」という意味になるのか、後から解釈しただけで、飛躍があるように思える。単なるSEだ。 Ronmeno (id:ryosuke_okubo) https://ryosuke-okubo.hatenablog.com/entry/2019/05/16/210000 いちばんやさしい、医療統計 https://best-biostatistics.com/summary/95ci.html ・https://www.youtube.com/watch?v=YiI9BH37BDM 11
信頼区間とは Hiroshi Omoriによる解説より、再度解説 母集団から標本を抽出、その標本の平均値を求める。すると、標本を繰り返し何度も独立して集めると、 複数の平均値が求まる。その複数の平均値を集めた分布が正規分布と仮定できると、平均値±1.96×SE の間に、その集めた複数の平均値の95%が含むことになる(平均値±SEなら68%)。 この平均値±1.96×SEの区間を信頼区間と言う。 次に、同じ正規母集団から標本抽出を繰り返すと、毎回標本平均として異なる値が得られる。また、標 本平均だけでなく上の式を使って信頼区間も計算すると、多くの異なる信頼区間が計算できる。この多 くの信頼区間の中で、95%が真の平均θを含む、という意味である。 つまり、100回の標本抽出により、 100 個の信頼区間を作ったら平均的にみて、 95 個の信頼区間が 真の平均 μ を含むことが期待できる。 実際に、平均 0 分散 2 の正規分布 N( 0, 2 ) から大きさ 10 の標本を取りだし、分散が既知であると して、母平均θに対する信頼区間を 100 個生成したシミュレーションすると、5個程度がθを含まない ことがわかる。 「この多くの信頼区間の中で、95%が真の平均θを含む、という意味である。」と書いてあったが、正 規分布していると、ほとんどの場合で含むということで、必ず含むことが数学的に証明されているとい う訳ではないと考えている。 そして、最終的に求める信頼区間は、多く・複数でなく1つのみだ。 http://lbm.ab.a.u-tokyo.ac.jp/~omori/kokusai/kokusai09_604.html 12
信頼区間とは 母分散が未知の場合 ここまでの解説では、話が複雑となるので、ワザと、母分散がわかっている場合での計算という条件をわずか しか記載せずに説明した。しかし、母平均を推測したいのに、母分散が既知であるとは考えにくい。 母分散が未知の場合、母分散σ2の代わりに不偏分散s2を用い、 t=ある式で定義される統計量tが自由度ν=n−1 のt分布にしたがうことを使って、標準正規分布の代わりにt分布を用いる。 手順: 標本平均x¯と不偏分散s2を求める 統計量tを計算する t分布の95%を含むtの範囲を、自由度を計算後に求める 母分散と不偏分散について: ある観測対象全体の集合を母集団(population)と呼び、その母集団の中からいくつかを選んで観測した対象 を標本(sample)と呼ぶ。母集団の分散を母分散、標本集団の分散を標本分散と言う。残念ながら、標本分散 は母分散の推定値にはならないことが統計学的に証明されている。知りたいのは、標本のみから、母分散を推 定したい。そのため、標本のある1つの集団が、正規分布している母集団からランダム抽出した・母集団の個数 は標本の個数に比べて極めて大きく無限に近いもの(このような母集団のことを無限母集団と言う)と仮定す ると、(観測データー平均)の総和/(標本数-1)が母分散に類似することが証明されているので、この式の分散 を、不偏分散と呼んで、母分散の代わりとする。 Ronmeno (id:ryosuke_okubo) https://ryosuke-okubo.hatenablog.com/entry/2019/05/16/210000 母分散と不偏分散 https://staff.aist.go.jp/t.ihara/dispersion.html https://best-biostatistics.com/summary/fuhen-bunsan-n1.html 13
信頼区間とは Moreyらの、信頼区間の誤解の解説 誤解1:ランダムな区間が、真の値を含む確率がX%であれば、特定の観察された区間が真の値を含む確度また は確率もX%である。あるいは、観察された区間が真の値を含むというX%の確信を持つことができる。 理由:パラメータθ(真の値)は、標本を抽出する前から、1つのある定数のはずである。よって、確率で示す ことができない。それは0(区間にθが含まれていない場合)か1(区間にθが含まれている場合)のどちらかで す。よって、観察された信頼区間を、ある確率で真の値を含んでいると解釈することはできない。 誤解2:信頼区間の幅は、パラメータに関する知識( knowledge)の精確さ(precision)を示す。信頼区間が 狭いと精確な知識があることになり、広いと不精確な知識があることになる。 理由:信頼区間の幅とパラメータが推定される不確実性(uncertainty)(precisionとは書いてなかった:湯浅) が、信頼区間にはいろいろな計算方法があり、ノンパラメトリック法や一様分布法などで は逆に関係し、別の 場合は全く関係しないといういくつかの例があるため。(そのため、Msaouelらは、論文内に「本記事では、 信頼区間が狭いと精度が高くなるという一般的な仮定を置き、興味のある方には、頻出主義の信頼区間とベイ ズの信頼区間の詳細な概要を参照して、関連するニュアンスについて議論しています。」として議論を展開し ていた。)よって、信頼区間は、推定値の精度(precision)と解釈する事はできない。 誤解3 (The Likelihood fallacy) :信頼区間は、パラメータの可能性の高い値を含む。信頼区間の内側の値 (inside)は外側の値( outside)よりも可能性が高い。この誤謬にはいくつかの種類があり、パラメータに関 する信念のもっともらしさ、信頼性credibility 、または妥当性reasonablenessに関わることもある。 理由:信頼区間は、真の値を含むかもしれないが(θの確率ではない)、任意のサンプルでそれが「妥当な reasonable 」値を含むかどうかは、別の問題である。Neyman(1941)は、「区間にはθが含まれている」と 「結論づける」ことも、「区間にはθが含まれている」と「信じる」こともできない。「我々は」真の値が「区 間にある」ことを実際に知っているかのように振る舞うことにしているだけである。 誤解3が有意差検定に絡むらしいが、いまいち意味不明な文章(訳)となっている。誤解2は、GRADEアプローチ的には、 困った内容である。JAMAユーザーズガイドには、「あるパラメータの真の値が存在すると見込まれる値の範囲」とある。 Moreyら https://link.springer.com/article/10.3758/s13423-015-0947-8 Msaouelら https://www.mdpi.com/2072-6694/13/11/2741 JAMAユーザーズガイド 相原守夫訳 医学文献ユーザーズガイド 中外医学社 14
信頼区間とは Ranstamによる解説では 信頼区間は、対象となる母集団のパラメータが計算された区間内にある確率を提供できないことはよく知られている。母 集団パラメータは固定されているから動き回ることができず、確率を持つことはできない(ベイズでは異なる)。それに もかかわらず、信頼区間は広く支持されている。 このような支持は、信頼区間は精度を測定するものであり、広い区間は精度(precision)が低いことを示し、狭い区間 は精度が高いことを示すという議論(仮定)に基づいている。(Moreyらの誤解2の内容みたい:湯浅) 平均値の信頼区間は、式より標準偏差をサンプルサイズの平方根で割った平均値の標準誤差に依存する。よって、サンプ ルサイズが大きくなると、平均の標準誤差は小さくなり、標準偏差が大きくなると、平均の標準誤差は大きくなる。 また、平均の標準誤差がサンプルサイズに影響されるだけでなく、標準偏差にも影響される。重要なことは、標準偏差は 全分散の平方根であり、式は、全分散がランダム分散(測定時におこるランダムな誤差)と系統的分散(母集団が、均一 な集団か不均一な集団化で、そこから得られるサンプルにおいて均質性が異なる)の両方(一般的に両者を「誤差」とい うカテゴリーでまとめている)に影響されることを示している。つまり、平均値の標準誤差に影響を与える要因は、サン プルサイズ、ランダム分散、系統的分散となる。 よって、母集団のパラメータが計算された区間内にある確率を割り当てることができなくても、実験の精度を測定できる と考える。精度には、サンプリング精度(sampling precision)、測定精度( measurement precision)、均質性の精 度( precision of homogeneity )の3種類がある。 よって、precisionを「測定値が互いに近いこと(ランダムエラー)」と定義すると、信頼区間の幅は、 precisionを表すとも言える。 もっとも、 Ranstamは、その後の解説で、「信頼区間(平均の標準誤差を用いて計算)は、これらを混同してしまう危険性がある。 したがって、精度に興味のない人にとっては、信頼区間を計算する理由はない。また、精度に関心のある人にとっては、3種類の精 度を別々に推定する方が良いため、やはり信頼区間を計算する理由はないことになってしまう。」と書いてあり、信頼区間を否定 していたので、身も蓋もなかった。ここでは、別々に推定しない方が、理解しやすいという論旨を前提とする。さらに指摘すると、 信頼区間に均質性が含まれるならグレードダウンの不精確さでない要因の非一貫性も含まれることになるが、これを指摘すると、 ランダム効果モデルや、between study heterogeneityを考慮できているHartung and Knappの方法などを使うとかの話になるの で、ここではそんなこともあるという程度で流します。 Ranstam https://www.sciencedirect.com/science/article/abs/pii/S0732118X17301691( https://daneshyari.com/article/preview/6810990.pdf ) 参考:https://www.quarkeducationconsulting.net/single-post/2019/04/01/uncertainty-error-and-confidence-in-data(不確実性(Uncertainty)は、15 データに存在するエラーの定量的推定です。すべての測定値には、系統的誤差やランダム誤差によって生成された不確かさが含まれています。 )
信頼区間とは Ismayらによる解説では 8.5.2 正確な解釈と簡略化された解釈 95%信頼区間に注目してみましょう。 95%信頼区間の正確で数学的に正しい解釈は、少し長文になります。 正確な解釈 Precise interpretation:サンプリング手順を多数回繰り返した場合、得られる信頼区間の約95%が母集団のパラメー タの値を捉えていると予想されます。 これは、図8.27で観察されたものです。私たちの信頼区間構築手順は、95%の信頼性reliableがあります。つまり、信頼区間が真 の母集団パラメータを含むことを約95%の確率で期待できるのです。 一般的ですが、間違った解釈 A common but incorrect interpretation :"信頼区間がpを含む95%の確率probability がある。" 図8.27を見ると、それぞれの信頼区間にはpが含まれているか、含まれていないかのどちらかです。言い換えれば、確率は1か0の どちらかです。 では,もし95%信頼水準が信頼区間構築手順の信頼性reliability にのみ関係し,与えられた信頼区間自体には関係しないのであれ ば,与えられた信頼区間からどのような知見が得られるでしょうか?例えば、ペニーの例に戻りますが、パーセンタイル法の95% 信頼区間では μ のパーセンタイル法95%信頼区間が(1991.24, 1999.42)であるのに対し、標準誤差法95%信頼区間は(1991.35, 1999.53)でした。 この2つの信頼区間について、どのようなことが言えるでしょうか。 大雑把に言えば,これらの区間は,平均年の値の妥当な範囲の「最良の推測」“best guess” と考えることができます。μ の妥当な 範囲と考えることができます。この本の残りの部分では、正確な解釈を以下のような略式でまとめています。 短絡的な解釈 Short-hand interpretation:我々は、95%信頼区間が母集団パラメータの値を捉えていることを95%「確信」 “confident”している。 “confident”の周りに引用符を使っているのは、95%は信頼区間構築手順の信頼性reliability に関連しているが、最終的に構築され た信頼区間は母集団パラメータを含む区間の最善の推測 our best guessであることを強調するためです。言い換えれば、それは 我々の最高のネットour best netです。 つまり、ペニーの例に戻り、パーセンタイル法に注目すると、2019年に流通しているペニーの真の平均年は、1991.24から 1999.42の間のどこかにあると95%「確信」“confident”しています。 Ismayら https://moderndive.com/8-confidence-intervals.html 16
信頼区間とは Guyattらの説明 信頼区間は、ランダムな誤差がエビデンスの確実性に与える影響を示すものであることが多い。ベイズ派とは 異なり頻出派(frequentist)の枠組みでは信頼区間は、実験を何度も繰り返し、実験ごとに信頼区間を再計算 した場合に、信頼区間の特定の割合(通常95%)が真の基礎値を含む結果の範囲を表します。 この定義よりも概念的に簡単なのは、信頼区間を「真実がもっともらしく存在する範囲」と考えること。 95%信頼区間は、真の効果があることを95%確信できる範囲を示していると解釈されることが多い(A 95% confidence interval is often interpreted as indicating a range within which we can be 95% certain that the true effect lies.*)。この表現は緩い解釈ですが、大まかな目安としては有効である。 メタアナリシスの信頼区間の幅は、個々の研究の推定値の精度と、組み合わせた研究の数に依存する。 また、ランダム効果モデルでは、異質性の増加に伴い精度が低下し、それに応じて信頼区間も広がる。 なお、固定効果モデルとランダム効果モデルでは、信頼区間と点推定値の解釈が異なる。固定効果の推定値と その信頼区間は「効果の最良の(単一の)推定値は何か」という問いに対応しているが、ランダム効果の推定 値は効果の分布があることを仮定しており、「平均効果の最良の推定値は何か」という問いに対応している。 さすがにGRADE guidelines 6の*の文章は、誤解を増やす(#の議論もあるが)。ともかく定義ではなく、概念として、 信頼区間を「真実がもっともらしく存在する範囲」と考えることで議論している。そのため、不精確さの評価では、サン プルサイズ・イベント数・閾値で評価しており、単純に95%信頼区間の幅が大きいとか小さいとかでは評価していない 事に注意されたい(このような評価は、散見されるが、JCEの解説論文のGRADE guidelines 6には記載されていない)。 注意:これらのスライドの解説文は、論旨展開に都合良く論文を選んでおり、系統的に選択しておりません。 https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC516199/ https://www.jclinepi.com/article/S0895-4356(11)00206-X/fulltext https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.researchgate.net/publication/15378007_Basic_statistics_for_clinicians_2_Interpreting_study_results_Confidence_intervals *https://training.cochrane.org/handbook/archive/v6.1/chapter-15 #https://ultrabem-branch3.com/statistics/basics/confidence_interval・ https://www.healthknowledge.org.uk/e-learning/statisticalmethods/practitioners/standard-error-confidence-intervals・https://www.youtube.com/watch?v=s4SRdaTycaw 17
信頼区間とは Guyattらの信頼区間とサンプルサイズの問題点について 信頼区間の問題点: 1.イベント数が少ないと信頼区間が脆弱(ぜいじゃく・fragility)である。 たとえば、各群が50例ぐらいで、イベント数がおのおの、5例と15例程度の場合、たった5つのイベントを対照群から介入群に移動 させただけで、結果は統計的有意性を失ったりして、揺らぎが多い(意訳)。直感的にも、脆弱と感じる。それでは、ベースライ ン(対照)のイベントが低い状況(<5%)の場合、群間の臨床的な差がかなり大きくないと(もちろん大きくない場合が多い)、 サンプルサイズを計算すると10,000人ぐらいになることも多い。では、このぐらいのサンプル数がなければ、信頼区間は脆弱とな るのかというと、このような場合でも、合計4,000人の患者(グループあたり2,000人の患者)の場合では、信頼区間は脆弱となら ないと判断される。 2.信頼区間は、すべての患者が同じリスクを持っていると仮定しているが、これは間違った仮定である。ランダム化は、介入群と 対照群の予後のバランスをとることで、予後のばらつきの問題を改善する。しかし、この研究を通じて2群間のバランス ( prognostic balance)がとれていると確信できるのは、サンプルサイズが大きい場合のみである。サンプルサイズが小さいにも かかわらず、治療効果が顕著に現れるのは、ランダム化比較試験であってもこの研究を通じて2群間のバランスが取れていないか らかもしれない。これらのことから、イベントが比較的少ない小規模試験に基づいて、治療の明らかな有益性または有害性を、十 分に狭い範囲の信頼区間で示すエビデンスサマリーには懐疑的な見方が必要である。よって、サンプルサイズも重要となる。 サンプルサイズの問題点: 臨床試験では、計画時に、アルファーエラー、検出力、臨床的な効果がある差を用いて計算する。しかし、イベント数が極めて小 さい場合は、サンプルサイズが大きくても信頼区間が広くなる。 また、連続変数の適切な精度に必要な患者の絶対数に経験則のしきい値を使うと、本来の研究の群間のバランスを保つのに必要な サンプルサイズに満たないサンプルサイズが、計算式での計算の結果、計算できてしまうので、誤った安心感を与える可能性があ る。たとえばα(0.05)β(0.20)を用い,経験則で用いられることがある効果が小さいことを示す0.2標準偏差の効果量を用いる と、合計で約800人(各群400人)のサンプルサイズが必要となるので、これを必要なサンプルサイズとして評価したいが、実は、 これは、研究を通じて2群間のバランス( prognostic balance)を確保するのに十分ではない可能性がある。 GRADE guidelines 6.には、「直感的にも、脆弱と感じる。」とあるが、さすがに、この解説で納得するのだろうか? Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 18
信頼区間とは 実例 No イベント数 サンプル数 信頼区間 Y 多い 多い 狭い U 少ない 多い 広い A 少ない 少ない 広い S 多い 少ない 狭い A 少ない 少ない 広い H 多い 少ない 狭い A.は、死亡数でHは、逆に生存数を イメージしてイベント数を逆とした ら、同じ結果にも関わらず、信頼区 間が異なる。 たった6例だが、信頼区間の広さは、サンプル数より、イベント数に依存していることが確かに「直感的に」推察される。 2000例もあるのにイベント数が少ないので、信頼区間が広くなるのは、直感的に納得できない。 また、生存数と死亡数を逆にしただけで、同じ結果にも関わらず信頼区間が異なるも納得できない。 19
imprecision GRADEアプローチでのimprecisionを少しだけ詳しく説明 不精確さ(imprecision):定義なし・以下の評価基準はある 1. もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。 2. 基本的にランダム化比較試験は、2つの治療に臨床的に差があると判断できる最小の値を利用して必要な症 例数を計算して行っているはず。しかし、たとえ、1の閾値をまたいでなくても、そもそも、メタ分析とし て複数の研究を統合した全体の症例数が、必要な症例数に満たなければ、不精確と言える(1つでも、症例 数を適確に計算してある論文が含まれていれば、必要な症例数以上になるが、残念ながら 、すべての採用 研が症例数の計算をしてなく少ないことが多い)。または、症例数・イベント数そのものも評価も検討 (これらは、信頼区間の脆弱性のため、信頼区間のみで評価するのが危険なことより行われる) 用語:GRADE guidelines 32より、閾値(Clinical Decision Threshold)としては、その診療ガイドラインの パネリストが、大きい・中等度・ 小さい効果の閾値を決めて、それに対して、大きいか小さいか範囲内かの確 実性があるかを評価する。その中で、小さい効果の閾値は、minimally important difference(MID)と同じと 考えて良い。そして、多くが、MID( small effect)で評価することが多い。 追加説明:1.2.を逆に考えても同じ。 必要な症例数がなければ、そもそも不精確。 必要な症例数があっても、臨床判断の閾値をまたいでいたら、不精確である。 サンプルサイズとイベント数が大きく95%信頼区間が狭いにも関わらず(precisionが高い)、臨床判断の閾値をまたい でいるから「不精確imprecision」だった場合、定義的には理解できても、漢字のイメージより感覚的に納得いかないか もしれない。ともかく繰り返しになるが、imprecisionは、precisionや信頼区間と言う統計用語を利用しているが、統 計学だけでない概念で定義されていると考えた方が良いだろう。 3.7. Clinical decision threshold and minimally important difference https://processbook.kce.fgov.be/node/134 Minimal clinically important difference: The basics https://www.medwave.cl/link.cgi/English/Reviews/MethodlogicalNotes/8150.act?ver=sindiseno *GRADE guidelines 6. Rating the quality of evidenced imprecision. 20
信頼区間とエビデンスの確実性の関係 理解するために、まずエビデンスの確実性に関与する要因を再確認 世界中の研究から、選択基準にあった研究を系統的・客観的に集めてまとめるのが系統的レビュー・システ マティックレビューの論文である。そのシステマティックレビューで集めた研究の結果を統計学的に統合す るのが、メタ分析・メタアナリシスの手法であり、死亡とか心筋梗塞とかのアウトカムごとに効果推定値 (点推定値と95%信頼区間)を算出する。 たとえば、B治療に対してA治療の生存率が1.62倍の効果があったとする。もし、この効果推定値の元にな る研究が、左図のようにバラバラで一貫していない研究の値をまとめた推定値と、右図のように一貫した値 をまとめた推定値では、どちらのが、システマティックレビューにおいて推定値が真の値に対する確実性が 高いであろうか。 もちろん、右図の場合である。 1.0 メタ分析:1.62 1.0 メタ分析:1.62
信頼区間とエビデンスの確実性の関係 このような、集めた研究の結果が一貫してないとか、エビデンスの確実性を下げる要因をまと めると、以下の5つあるとされている。これをグレードダウンの5要因と言う(とりあえず、 この5つがあると覚えること)。 もし、そのアウトカムの結果を構成する元の研究にバイアスが多く存在し ていたら・・・、 バイアスのリ スク もし、研究間で、結果が異なっていれば・・・、 非一貫性 もし、最初に想定した臨床の疑問の患者層など(PICO)と、選択した論文 の患者層が、原因不明で異なっていれば・・・、 非直接性 もし、複数の研究を集めたにもかかわらず症例数が少なく精確さに欠ける などをしていれば・・・、 不精確さ・ imprecision もし、有意差がなかったからと報告されなかった研究や、都合が悪いので 論文に書かなかったアウトカムが、たくさんありそうな状況だった ら・・・、 その他(出版 バイアス)
信頼区間とエビデンスの確実性の関係 重要なことなので、少し、流れが途切れるが、理解して欲しい ステップ2: 元となる各研究のバイア SRの質とエビデンスの確 ステップ1: 臨床判断に使えるのか? SRそのものの作り方は? スや症例数、研究間の不 実性をまとめると? 一致や疑問との相違は? しっかりと作られてな いSR ---→ SRの質が低い 得られた結果を使って はいけない できの良くない研究や、 SRの質は高いが、そ 得られた結果を使うが 各研究結果が不一致な の中のエビデンスの確 臨床判断に使えない可 ど5要因が問題あり 実性が低い 能性がある しっかりと作られた SR SRの質は高く、その 良質な研究であり、各 得られた結果を使うこ 中のエビデンスの確実 研究結果も一致 とが十分にできる 性も高い 23
信頼区間とエビデンスの確実性の関係 GRADE guidelines 32の付録2より:信頼区間と確実性の範囲の概念 概念的には、GRADEの他のimprecision以外の4つの領域 は、効果の最良推定値の不確実性の分布関数を、95%CI で定義される範囲を超えて拡張・修正するものである。 確実性の範囲の幅は、他の4つの領域に関する深刻が大き ければ大きいほど広くなる。しかし、その範囲内の推定 値の確率分布の幅と形状については知られていません。 左上図に示すように、点推定値は変わらず、バイアスや 非直接性のリスクにより確実性の範囲が95%CIを超えて 広がると考えられるなら、点推定値は、依然として小さ い効果のしきい値よりも大きい効果を示唆しているため、 真の効果が小さいことの確実性を評価し、バイアスや非 直接性のリスクのために確実性を下げますが、不正確さ については評価しません。 左下図は、一方向に動く可能性を示した概念図だが、レ ビュアーがバイアスの方向性を認識し、その大きさを十 分に明確に認識して、自信を持って点推定値を動かすこ とができる状況は、現状ではない。 概念的を図で理解するためだけであり、数学的な図でない。信頼区間というランダムエラー(imprecisionのイメージに最も近い ので使う)に、系統的エラーなど(バイアスのリスク・非直接性)を加えて、どれだけエラーが存在して確実性の範囲が広いかを、 「高い・中等度・低い・非常に低い」という文字で表現したのが、エビデンスの確実性(certainty of evidence)と考えるとよい。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 24
信頼区間とエビデンスの確実性の関係 信頼区間と確実性の範囲の概念をさらに図示化すると 先の概念を、よりわかりや すく図示したものが、 「Schünemann JH. Interpreting GRADE‘s levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less emphasis on imprecision? Journal of Clinical Epidemiology 2016;75:615.」の図である。 相原守夫.診療ガイドラインのためのGRADEシステム第3版 実際は、上図のような釣り 鐘でなく、下図のような、 いびつに変形している可能 性が高い。 25
信頼区間について(私見) 古典的(頻出主義): 信頼区間が狭いと精度が高くなるという一般的な仮定を置くと、信頼区間の幅が狭ければ精度(precision)が高い可能性が あり、幅が広ければ精度が低い可能性がある。これは、precisionを測定値同士のバラツキで、ランダムエラーとして、分散 で評価できるという考えがベースにある(分散は標本と平均の差なので、その平均が真の値から系統的エラーがあるない関 係なく、標本と平均の差に系統的エラーとランダムエラーの両方が含まれるとするなど諸説あるので注意すること) 。ただ し、計算式・イベント数などによっては、精度を反映してない可能性もあるので注意が必要である。真の値(パラメータ) は、信頼区間の中にあるか・ないかのどちらかとなり、確率での説明(95%含まれる)は不適切であるが、含まれているこ とを「確信・confident」できると解釈する統計学者もいる。ベイス流では、確率として考える。 GRADEアプローチ: ⚫ 相対的計算でなく、絶対的計算を利用するのが望ましい(今回のスライドでは説明してない)。 ⚫ イベント数が少ないと信頼区間が脆弱(ぜいじゃく・fragility)となる。研究を通じて2群間のバランス( prognostic balance)がとれていると確信できるのは、サンプルサイズが大きい場合であり、信頼区間に関係ないこともある。 ⚫ Imprecisionの判定に必要となる。ただし、imprecisionの判定は、信頼区間だけでなく、閾値や、サンプルサイズ・イ ベント数も考慮する。 ⚫ 統計学的に厳密な考えではないが、概念的に簡単な考えとして、信頼区間を「真実がもっともらしく存在する範囲」と 考える。そして、点推定値が、最も真の値の可能性が高いと考え、信頼区間の端になるほど、真の値の可能性が低いと 考える。 ただし、GRADE guidelines 6の「A 95% confidence interval is often interpreted as indicating a range within which we can be 95% certain that the true effect lies.」の表現は、誤解を含むので問題と考える。 ⚫ 信頼区間の下端と上端は、マレにはこのような場合もあるという値として、臨床の判断に役立てる。 ⚫ null効果(絶対差の場合0)をまたいで、その介入が益・害と判断する。閾値をまたいで、効果がある・ないと判断する。 ⚫ エビデンスの確実性の概念を表す場合に、信頼区間をimprecisionとしてベースとする。それに、リスクオブバイアスや 非一貫性や非直接性などで、範囲を広くしてイメージする場合に利用できる。 26