GRADEガイドライン11：アウトカム全体のエビデンスの確実性について EBM中級編：Net effectより確実性3：全体の確実性11について

2.9K Views

July 31, 23

スライド概要

GRADEガイドライン11：アウトカム全体のエビデンスの確実性について
EBM中級編：Net effectより確実性3：全体の確実性11について

MXE05064

@MXE05064

スライド一覧

医療関係です

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

ダウンロード(pdf - 2.57MB)

関連スライド

各ページのテキスト

診療ガイドライン作成のためのシステマティックレビューにおける各アウトカムのエビデンスの確実性からエビデンス全体の確実性を評価する方法を何度も読んで理解して欲しい解説：EBM の実践にも役立つよ編日本口腔外科学会・日本口腔腫瘍学会編「口腔癌診療ガイドライン 2019年度版）」の、「CQ: 切除可能で外科治療を予定している症例に対して術前療法を行なうべきか？」を、Alperらが提案している完全コンテキスト化アプローチを用いて再検討しながら解説する。湯浅秀道（Ｙマークタイトルは湯浅のみ）協力・助言：辻本康指導・監修：相原守夫内科医のエビデンスに基づく医療情報 http://aihara.la.coocan.jp / メイン論文：Alper BS, Oettgen P, Kunnamo I, et al. Defining certainty of net benefit: a GRADE concept paper. BMJ Open 2019;9:e027445. https://bmjopen.bmj.com/content/9/6/e027445 参考：Monica Hultcrantz, David Rind, Elie A. Akl, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol. 2017 Jul;87:4-13. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6542664/ 相原守夫.診療ガイドラインのためのGRADEシステム第3版・内科医のエビデンスに基づく医療情報 1

本スライドの目的システマティックレビューの結果を実際の臨床で使う、または、診療ガイドラインの推奨を決定するためには、システマティックレビューの結果を実際の臨床の現場のいろいろな具体的な状況（文脈）に合わせて、総合的に考えなければならない。しかし、アウトカムごとにエビデンスの確実性が異なっている場合・複数のアウトカムの臨床決断の閾値を同時に考慮しなければならない場合など、臨床決断・推奨の評価が困難な事は多い。そのため、それらの複雑な状況を整理しながら考えるアプローチの開発が望まれている。今回は、診療ガイドライン作成に対して提案された、 Alperらの完全コンテキスト化アプローチについて解説する。 2

流れ ⚫ まず、エビデンスの確実性の意味を考える ○「エビデンスの確実性」の定義 ○「不精確さ」の定義途中で、2021年報告されたGRADE guidelines 32のエビデンスの確実性と、信頼区間と従来からの不精確さの評価方法の解説（流れは悪くなるが診療ガイドライン作成者は、必須のため、あえて解説） ○「エビデンス全体の確実性」について ○少し、流れをまとめてみる ⚫ 各アウトカムの結果から、推奨を考えるために ⚫ Alperらの完全コンテキスト化アプローチとは（紹介）？ ⚫ その前に：今回考察する実際の診療ガイドラインは？ ⚫ ⚫ Alperらの、完全コンテキスト化アプローチの解説の前に Alperらの完全コンテキスト化アプローチとは（解説）？〇Generation of the net effect estimate・正味の効果推定値の生成 Step1・２・３〇Rating the certainty of net benefit・純利益の確実性の評価 Step４・５・６〇少しまとめてみる ⚫ 正味の効果の確実性（エビデンスの確実性）を推奨の強さに関係づける（EtD） ⚫ EBMの実践で･･･ 3

まず、エビデンスの確実性の意味を考える世界中の研究から、選択基準にあった研究を系統的・客観的に集めてまとめるのが系統的レビュー・システマティックレビューの論文である。そのシステマティックレビューで集めた研究の結果を統計学的に統合するのが、メタ分析・メタアナリシスの手法であり、死亡とか心筋梗塞とかのアウトカムごとに効果推定値（点推定値と95％信頼区間）を算出する。たとえば、B治療に対してA治療の生存率が1.62倍の効果があったとする。もし、この効果推定値の元になる研究が、左図のようにバラバラで一貫していない研究の値をまとめた推定値と、右図のように一貫した値をまとめた推定値では、どちらのが、システマティックレビューにおいて推定値が真の値に対する確実性が高いであろうか。もちろん、右図の場合である。 1.0 メタ分析：1.62 1.0 メタ分析：1.62

このような、集めた研究の結果が一貫してないとか、エビデンスの確実性を下げる要因をまとめると、以下の5つあるとされている。これをグレードダウンの5要因と言う（とりあえず、この5つがあると覚えること）。もし、そのアウトカムの結果を構成する元の研究にバイアスが多く存在していたら・・・、バイアスのリスクもし、研究間で、結果が異なっていれば・・・、非一貫性もし、最初に想定した臨床の疑問の患者層など（PICO）と、選択した論文の患者層が、原因不明で異なっていれば・・・、非直接性もし、複数の研究を集めたにもかかわらず症例数が少なく精確さに欠けるなどをしていれば・・・、不精確さもし、有意差がなかったからと報告されなかった研究や、都合が悪いので論文に書かなかったアウトカムが、たくさんありそうな状況だったら・・・、その他（出版バイアス）

Y：システマティックレビューの質とその中のエビデンスの確実性（質）の関係ステップ2：元となる各研究のバイア SRの質とエビデンスの確ステップ1：臨床判断に使えるのか？ SRそのものの作り方は？スや症例数、研究間の不実性をまとめると？一致や疑問との相違は？しっかりと作られてないSR ---→ SRの質が低い得られた結果を使ってはいけない SRの質は高いが、そ得られた結果を使うができの良くない研究や、の中のエビデンスの確臨床判断に使えない可各研究結果が不一致実性が低い能性があるしっかりと作られた SR SRの質は高く、その良質な研究であり、各得られた結果を使うこ中のエビデンスの確実研究結果も一致とが十分にできる性も高い 6

すなわち、診療ガイドラインの推奨や EBMの実践の場面で、いくらシステマティックレビューの質が高くても、エビデンス（SRのまとめた結果）に基づいて、その治療を行なうか行なわないかの臨床決断する場合に、そのエビデンスの確実性（certainty of evidence）が低ければ、推奨や決断は弱いものとなるのは言うまでもない。参考文献：Andrews JC , Schünemann HJ , Oxman AD , et al . GRADE guidelines: 15. Going from evidence to recommendationdeterminants of a recommendation’s direction and strength. J Clin Epidemiol 2013;66:726–35.doi:10.1016/j.jclinepi.2013.02.003 そのためエビデンスの確実性が重要な要因となる。そして、そのエビデンスの確実性には、先ほどの5要因の中でも「不精確さ」が、重要な要因、かつ、診療ガイドラインとシステマティックレビューでは評価が異なっているので注意が必要である。よって、本スライドでは、まず、従来からGRADEアプローチで採用されている「エビデンスの確実性」と「不精確さ」について説明する。その後に、Alperらが提案している完全コンテキスト化アプローチを説明する。ポイント：エビデンスの確実性と不精確さは、同じような意味なので混乱しやすいという指摘（これに対してSchünemann は反論）もあることより、理解は難しいと思ってもよい（ Anttila. Conclusiveness resolves the conflict between quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology 75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext ）

「エビデンスの確実性」の定義近年、エビデンスの確実性の定義で最も使われているのが、GRADE Working Groupによる GRADEアプローチである。そこで、本スライドは、その多くがGRADEアプローチに従って解説する。本スライドでは、診療ガイドラインにおけるエビデンスの確実性の定義に従って解説する。システマティックレビューある効果推定値が正しいという確実性（certainty ）診療ガイドライン真の効果が特定の範囲または特定の閾値の片側にあることの確実性（the certainty that a true effect lies within a specified range or on one side of a specified threshold ） A 特定の閾値参考文献：Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 注意：相原守夫.診療ガイドラインのためのGRADEシステム第3版：「効果推定値に対する確実性が、ある特定の推奨を支持する上でどの程度十分か」とあるが、その後の変遷に関しては、相原先生のブログを参照されたい（内科医のエビデンスに基づく医療情報）。 8

もう少し具体的に、診療ガイドラインでのエビデンスの確実性を説明する。たとえば、抗血栓療法を使用するかどうかの決定について患者が脳卒中の2％減少の閾値を選択したとする。抗血栓療法を使用するかどうかの決定については、2％減少の閾値を超えている限り、真の効果が脳卒中の2.1％の減少（A）であるか、 3％以上の減少（B)であるかは重要でない。したがって、点推定が真の効果を表すという確実性ではなく、真の効果（減少）が 2％以上であるという確実性が担保されれば良い。もちろん（C)の場合では、確実性は低くなる。 A B C 2％参考文献：Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 9

10.

「不精確さ」の定義研究に比較的少数の患者と少数のイベントが含まれていて、そのために効果推定値を取り巻く信頼区間が広くなっているならば、そのデータは不精確(imprecise)であると定義する。注意： impreciseの日本語訳だと、不正確が多く用いられている。「正確」という表現は、「何が正しいのかの基準が明確な場合に、間違いがなくて正しいこと」を意味するため、真の値が不明な医療の場面なので「精確」となっている。そして、その評価方法は、臨床判断の閾値の関係などより、システマテックレビューと診療ガイドラインでは、評価方法が異なる。また、アプローチには、「閾値を用いる方法」と「Hultcrantzらによる完全コンテキスト化アプローチ」の2つの方法がある。詳しくは、相原GRADE第3版を参照して欲しい。どちらも、アウトカムごとに不精確さを評価する方法である。最も単純に述べると、信頼区間が広くて、下図のような状況なら、そのデータの不精確さは、深刻と言える。また、症例数そのもの（信頼区間のはば）だけでなく、信頼区間が「特定の閾値」をまたいでいれば、不精確さがあるとも言える。 A治療で利益← →A治療で害参考文献：Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 10

11.

Ｙ：GRADE guidelines 32より 2021年時点で、あらためてエビデンスの確実性の解説が必要な理由アウトカム死亡：最小臨床的効果(MID) 効果なし -4.0% 介入A優位 -2.0% -0.5% －1.0％ RD=0 対照優位 2021年にあらためて確実性を解説する論文が、GRADEワーキンググループより発表された。その理由は、 GRADE を使っている者が、何をもって確実性を評価しているのか（すなわち、証拠の確実性の評価のターゲット）を明示しないことが依然として多いためこの解説となったらしい。例えば、介入Aとプラセボの死亡率の差が100人あたり2人少なく、95％信頼区間（CI）は100人あたり0.5人から4人少ないという状況を考えてみる。ある評価者（システマティックレビュー作成者）は、効果なしを評価のターゲットとして、介入Aがプラセボと比較して死亡率を減少させることが確実であり、不精確さの評価を下げる必要がないとする。また、他の評価者は、1％減少というMIDをターゲットとして、不精確さのために確実性を下げるかもしれない。またSRの利用者は、この両方の情報を吟味するかもしれない。 SR評価者は、コンテキストの程度と閾値を述べることで透明性が確保される。なお、この解説では、閾値（必ずしも一点でなくても良い）の根拠を述べることは重要だが、それには触れずに解説する。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 11

https://doi.org/10.1016/j.jclinepi.2021.03.026

12.

Ｙ： GRADE guidelines 32よりエビデンスの確実性（質）：certainty (quality) of bodies of evidence 大きい効果の閾値中等度小さい効果なし Large moderate small trivial エビデンスの確実性：真の効果が、閾値の片側（例えば、図の小効果閾値の左側）、または、選択した範囲内（例えば、図の小効果の範囲内）にあるという確信最小コンテキスト化：グループ間に差がない（RR=1、RD=0だけ）、または、重要な効果（MID）だけが明確になっている場合に対しての確実性。すなわち、図の効果なしと小さい閾値（これをMIDと呼ぶ）の2つだけを考える。部分コンテキスト化：小さい・中等度・大きい効果の閾値から2つの閾値で囲まれた範囲（・小規模small・中程度 moderate・大規模large）の確実性（些細trivial は使わないような事が最初にあるが、途中から使っていた？）。この、 GRADE guidelines 32では、最小と部分コンテキスト化について述べるので、システマティックレビューや医療技術評価用の解説である。まだCPGの完全コンテキスト化の論文が報告されてないので（GRADEワーキンググループで議論承認されてから論文化されたもの）、この解説とする。注意：信頼区間の意味に関しては、古典的な方法とベイス流の方法で若干解釈が異なるようだが、本解説では、概念を示しているような感じで、厳密でない議論の部分もあることに注意されたい。雰囲気的には、ベイス流だと、点推定値がその区間に含まれる確率が95%という一般的に考えてしまう（古典的には間違いとされている）解釈で良いようだ。参考文献： https://link.springer.com/article/10.3758/s13423-015-0947-8 12

13.

Ｙ： GRADE guidelines 32よりエビデンスの確実性を評価する対象を選択するための4つの原則大きい効果の閾値中等度小さい効果なし Large moderate small 原則1：レビュアーは、確実性評価のターゲットを決める必要がある。ある閾値の上か下か、または、ある2つの閾値の範囲内かどうかを決める。原則2：確実性評価のターゲットは、コンテキストの程度、選択された閾値、および点推定値によって異なる。コンテキストの程度は、SRならば、最小か部分コンテキストとなる。閾値は、先のスライドでコンテキストの具体例で示したのに準じる。ベースラインリスクによっては、相対値と絶対値が大きく変わる場合があるので、閾値と点推定値を絶対値で示す必要がある。また、閾値を点でなく範囲で示す必要がある場合もあるが、複雑になるので、本解説では点で示す。点推定値は、上図で、緑ならば真の効果が重要な効果であることの確信度を評価することになる。しかし、赤ならば、真の効果は些細なものか重要ではない（すなわち、小効果閾値より小さい）という確実性を評価することになる。 13

14.

Ｙ： GRADE guidelines 32よりエビデンスの確実性を評価する対象を選択するための4つの原則アウトカム死亡：最小臨床的効果(MID) 効果なしアウトカム死亡：最小臨床的効果(MID) 効果なし中等度 -1.9% -0.99% -0.1% 介入A優位－1.0％ RD=0 -1.9% -0.99% -0.1% 対照優位介入A優位－1.0％ RD=0 対照優位アプローチ1（上左）：点推定値が選択した閾値（すなわち、MIDの閾値）に非常に近いが、レビュアーは真の効果がその閾値以下であるという確実性を評価することができる。この場合、レビュアーは効果が小さいという確信性を評価することになる。アプローチ2（上右）：レビュアーは隣接する2つの閾値（すなわち、効果なし（ヌル効果）と中等度の効果の閾値）に関連して確実性を評価することができる。この場合、レビュアーは真の効果が些細な効果であることの確実性を評価することになる。アウトカム死亡：最小臨床的効果(MID) 効果なし介入A優位－1.0％ RD=0 害対照優位点推定値が効果なしに位置するか、それに非常に近い状況では、点推定値のみで確実性を評価することは不可能であるので、アプローチ2を適用する方がよいかもしれない。有益な小さな効果のしきい値と有害な小さな効果のしきい値の間の些細な効果の範囲に関連して確実性を評価することになる。 14

15.

Ｙ： GRADE guidelines 32よりエビデンスの確実性を評価する対象を選択するための4つの原則 MID2 MID1 効果なし原則3：レビュアーがどこに閾値を設定するかによって、確実性の評価のターゲットが決まる。レビュアーが閾値1を選択すれば、真の効果が小さな効果の閾値よりも大きい（すなわち、真の効果が重要な効果である）という確実性を評価することになる。閾値2に設定した場合、真の効果が小さな効果の閾値よりも小さい（すなわち、真の効果が些細なものである）という確実性を評価することになる。原則4：95%信頼区間が複数の閾値を越える場合、特定の閾値を選択することには意味がなく、したがってエビデンスの確実性の評価対象を決めることにも意味がない。このような状況では、特定の閾値に関連してエビデンスの確実性を評価するのではなく、「レビュアーは真の効果をほとんど知らない」という結論が適切であろう。また、エビデンスの確実性を少なくとも 2段階は下げるでしょう。原則の適用については、コンテキスト化の程度と閾値の選択は、レビュアーによって異なる。また、それは、ユーザー自身が行うことも可能である。 15

16.

Ｙ： GRADE guidelines 32より具体例：もう少し詳しい具体例が付録にあるので参照することアウトカム死亡：最小臨床的効果(MID) 効果なし中等度 -4.1% ステロイド優位 -3.0% -1.8% 0.8% －0.5％RD=0 ステロイド不利最小コンテキスト化：このレビューの著者は、null effectに関連して確実性を評価することで、コルチコステロイドが死亡率を減少させる（すなわち、効果がある）という確実性を評価する事とする。すると、95%信頼区間が効果なしと交差しているため、不精確さのために確実性を低く評価する。部分コンテキスト化：著者は、MIDの閾値を100人あたり0.5人の死亡者数減少、中程度の効果の閾値を100人あたり3人の死亡者数減少に設定したかもしれない。そうすると、ステロイドによる死亡率の減少が小さいという確実性を評価し、95％CIが小さい効果と中程度の効果の両方のしきい値を越えていることから、不精確さを評価することになる。ポイント：価値判断を必要としない非文脈化アプローチ（ non-contextualized approach）というラベルから，最小コンテキスト化アプローチというラベルに変更した。価値判断を必要としない「非文脈的」というラベルの合理性はほとんどない。 16

17.

Ｙ： GRADE guidelines 32より付録2より：信頼区間と確実性の範囲の概念概念的には、GRADEの他の4つの領域は、効果の最良推定値の不確実性の分布関数を、95％CIで定義される範囲を超えて拡張・修正するものである。確実性の範囲の幅は、他の4つの領域に関する深刻が大きければ大きいほど広くなる。しかし、その範囲内の推定値の確率分布の幅と形状については知られていません。左上図に示すように、点推定値は変わらず、偏りや間接性のリスクにより確実性の範囲が95%CIを超えて広がると考えられるなら、点推定値は、依然として小さい効果のしきい値よりも大きい効果を示唆しているため、真の効果が小さいことの確実性を評価し、偏りや間接性のリスクのために確実性を下げますが、不正確さについては評価しません。左下図は、一方向に動く可能性を示した概念図だが、レビュアーがバイアスの方向性を認識し、その大きさを十分に明確に認識して、自信を持って点推定値を動かすことができる状況は、現状ではない。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 17

https://doi.org/10.1016/j.jclinepi.2021.03.026

18.

Ｙ： GRADE guidelines 32より付録2より：信頼区間と確実性の範囲の概念先の概念を、よりわかりやすく図示したものが、「Schünemann JH. Interpreting GRADE‘s levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less emphasis on imprecision? Journal of Clinical Epidemiology 2016;75:615.」の図である。相原守夫.診療ガイドラインのためのGRADEシステム第3版実際は、上図のような釣り鐘でなく、下図のような、いびつに変形している可能性が高い。 18

19.

Ｙ：信頼区間とは Neymanの定義に厳密に従うと身も蓋もない…Moreyらの解説定義1：パラメータ（一般的にはθと呼び、母平均、中央値、分散、確率、その他の未知の量）のX%信頼区間とは、θのすべての可能な値に対して、繰り返しのサンプリングでθの真の値を含む確率がX%となる手順で生成された区間(L,U)のこと (Neyman 1937)。解説：母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれるという意味であり、観測されたデータからパラメータを推論してはいない（ 95％に調整して幅を決める感じ）。母数を囲む信頼区間が95％の確率で得られるということと、母数が1つの計算された区間に 95％の確率で含まれるということとは同じではない。誤解１：正規分布に従う母集団から標本を取ってきてその平均から95%信頼区間を求めた時に、その区間の中に95%の確率で母平均が含まれる（これは、違う解説からの説明）。誤解2：信頼区間の幅は、パラメータに関する知識（ knowledge）の精確さ（precision）を示す。信頼区間が狭いと精確な知識があることになり、広いと不精確な知識があることになる。誤解３：信頼区間は、パラメータの可能性の高い値を含む。信頼区間の内側の値（inside）は外側の値よりも可能性が高い。この誤謬にはいくつかの種類があり、パラメータに関する信念のもっともらしさ、信頼性、または妥当性に関わることもある。それでは、データを収集し、信頼区間を計算した後、その区間をどのように解釈すればよいのか？答えはとても簡単で、解釈しない。少なくとも信頼区間理論ではそうではない。と言うことで、身も蓋もなくなるが、誤解2に関しては、もう少し解説する。少なくとも、真の値θが、95％信頼区間の間を動くことはなく、不変なものである（たぶん、そうなると定義的に、 95％信頼区間の上限と下限にθがくることは、ほぼないような気がする（湯浅の見解））。 https://link.springer.com/article/10.3758/s13423-015-0947-8 https://bellcurve.jp/statistics/course/8891.html https://www.sciencedirect.com/science/article/abs/pii/S0732118X17301691 （ https://daneshyari.com/article/preview/6810990.pdf ） 19

20.

Ｙ：信頼区間とは Neymanの定義・信頼区間・ precision・ accuracy • WikiPediaなどによると、「一連の測定では、 accuracyは測定値が特定の値に近いことであり（系統的誤差・観察誤差）、precisionは測定値が互いに近いこと（ランダムエラー）。」、「精度accuracyとは、信頼区間に真の母集団のパラメータが含まれているかどうかという点で定義。precisionとは、信頼区間の幅のことである。」とある。 • Anttilaらによると、GRADEのimprecisionは、このように、統計的検出力、信頼区間、指定された限界（言い換えれば、クリティカルマージン）の複数の側面の組み合わせである。 In statistics , “accuracy” is a familiar concept expressing closeness between a parameter value and an estimate; it encompasses both bias and sample precision.統計学において「精度」とは，パラメータ値と推定値の近さを表す身近な概念であり，バイアスと標本精度の両方を含んでいる。 • Moreyらの解説：推定値の精度（precision）と信頼区間の大きさには、必ずしも関連性はない。信頼区間にはいろいろな計算方法があり、ノンパラメトリック法や一様分布法などでは、パラメータが推定される不確実性（尤度で表現か？）が増すと、信頼区間の幅が小さくなる場合もある。よって、関連性がないとなる。 • そのため、Msaouelらは、論文内に「本記事では、信頼区間が狭いと精度が高くなるという一般的な仮定を置き、興味のある方には、頻出主義の信頼区間とベイズの信頼区間の詳細な概要を参照して、関連するニュアンスについて議論しています。」として議論を展開していた。 ⇒このような誤解2について、他の統計学者による考えを次のスライドで紹介する。 https://en.wikipedia.org/wiki/Accuracy_and_precision http://researchhubs.com/post/ai/data-analysis-and-statistical-inference/accuracy-vs-precision.html https://theebmproject.wordpress.com/fundamentals/hypothesis-testing/confidence-intervals/ Anttila. Conclusiveness resolves the conflict between quality of evidence and imprecision in GRADE. Journal of Clinical Epidemiology 75, 2016, P1-5 https://www.jclinepi.com/article/S0895-4356(16)30068-3/fulltext https://link.springer.com/article/10.3758/s13423-015-0947-8 https://www.mdpi.com/2072-6694/13/11/2741 20

21.

Ｙ：信頼区間とは Ranstamによる解説では信頼区間は、対象となる母集団のパラメータが計算された区間内にある確率を提供できないことはよく知られている。母集団パラメータは固定されているから動き回ることができず、確率を持つことはできない（ベイズでは異なる）。それにもかかわらず、信頼区間は広く支持されている。このような支持は、信頼区間は精度を測定するものであり、広い区間は精度（precision）が低いことを示し、狭い区間は精度が高いことを示すという議論（仮定）に基づいている。平均値の信頼区間は、式より標準偏差をサンプルサイズの平方根で割った平均値の標準誤差に依存する。よって、サンプルサイズが大きくなると、平均の標準誤差は小さくなり、標準偏差が大きくなると、平均の標準誤差は大きくなる。また、平均の標準誤差がサンプルサイズに影響されるだけでなく、標準偏差にも影響される。重要なことは、標準偏差は全分散の平方根であり、式は、全分散がランダム分散（測定時におこるランダムな誤差）と系統的分散（母集団が、均一な集団か不均一な集団化で、そこから得られるサンプルにおいて均質性が異なる）の両方（一般的に両者を「誤差」というカテゴリーでまとめている）に影響されることを示している。つまり、平均値の標準誤差に影響を与える要因は、サンプルサイズ、ランダム分散、系統的分散となる。よって、母集団のパラメータが計算された区間内にある確率を割り当てることができなくても、実験の精度を測定できると考える。精度には、サンプリング精度（sampling precision）、測定精度（ measurement precision）、均質性の精度（ precision of homogeneity ）の3種類がある。よって、precisionを「測定値が互いに近いこと（ランダムエラー）」と定義すると、信頼区間の幅は、 precisionを表すとも言える。もっとも、 Ranstamは、その後の解説で、「信頼区間（平均の標準誤差を用いて計算）は、これらを混同してしまう危険性がある。したがって、精度に興味のない人にとっては、信頼区間を計算する理由はない。また、精度に関心のある人にとっては、3種類の精度を別々に推定する方が良いため、やはり信頼区間を計算する理由はないことになってしまう。」と書いてあり、信頼区間を否定していたので、身も蓋もなかった。ここでは、別々に推定しない方が、理解しやすいという論旨を前提とする。さらに指摘すると、信頼区間に均質性が含まれるならグレードダウンの不精確さでない要因の非一貫性も含まれることになるが、これを指摘すると、ランダム効果モデルや、、between study heterogeneityを考慮できているHartung and Knappの方法などを使うとかの話になるので、ここではそんなこともあるという程度で流します。 https://www.sciencedirect.com/science/article/abs/pii/S0732118X17301691（ https://daneshyari.com/article/preview/6810990.pdf ）参考：https://www.quarkeducationconsulting.net/single-post/2019/04/01/uncertainty-error-and-confidence-in-data（不確実性（Uncertai nty）は、データ 21 に存在するエラーの定量的推定です。すべての測定値には、系統的誤差やランダム誤差によって生成された不確かさが含まれています。）

22.

Ｙ：信頼区間とは Gordon H. Guyattらの説明信頼区間は、ランダムな誤差がエビデンスの確実性に与える影響を示すものであることが多い。ベイズ派とは異なり頻出派（frequentist）の枠組みでは信頼区間は、実験を何度も繰り返し、実験ごとに信頼区間を再計算した場合に、信頼区間の特定の割合（通常95％）が真の基礎値を含む結果の範囲を表します。この定義よりも概念的に簡単なのは、信頼区間を「真実がもっともらしく存在する範囲」と考えることです。 95％信頼区間は、真の効果があることを95％確信できる範囲を示していると解釈されることが多い（A 95% confidence interval is often interpreted as indicating a range within which we can be 95% certain that the true effect lies.＊）。この表現は緩い解釈ですが、大まかな目安としては有効である。メタアナリシスの信頼区間の幅は、個々の研究の推定値の精度と、組み合わせた研究の数に依存する。また、ランダム効果モデルでは、異質性の増加に伴い精度が低下し、それに応じて信頼区間も広がる。なお、固定効果モデルとランダム効果モデルでは、信頼区間と点推定値の解釈が異なる。固定効果の推定値とその信頼区間は「効果の最良の（単一の）推定値は何か」という問いに対応しているが、ランダム効果の推定値は効果の分布があることを仮定しており、「平均効果の最良の推定値は何か」という問いに対応している。さすがに＊の文章は、誤解を増やす（＃の議論もあるが）。ともかく、定義ではなく、概念として、信頼区間を「真実がもっともらしく存在する範囲」と考えることで議論している。そのため、不精確さの評価では、サンプルサイズ・イベント数・閾値で評価しており、単純に95％信頼区間の幅が大きいとか小さいとかでは評価していない事に注意されたい（このような評価は、散見されるが、JCEの解説論文のGRADE guidelines 6には記載されていない）。注意：これらのスライドの解説文は、論旨展開に都合良く論文を選んでおり、系統的に選択しておりません。 https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC516199/ https://www.jclinepi.com/article/S0895-4356(11)00206-X/fulltext https://libraryguides.neomed.edu/c.php?g=324183&p=2172309 https://www.researchgate.net/publication/15378007_Basic_statistics_for_clinicians_2_Interpreting_study_results_Confidence_intervals ＊https://training.cochrane.org/handbook/archive/v6.1/chapter-15 ＃https://ultrabem-branch3.com/statistics/basics/confidence_interval・ https://www.healthknowledge.org.uk/e-learning/statisticalmethods/practitioners/standard-error-confidence-intervals・https://www.youtube.com/watch?v=s4SRdaTycaw 22

23.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より不精確さの検討は、本当に混乱するので、理由・概念を中心に解説不精確さ⇒確実性なので、GRADE guidelines 32の前に解説するか悩んだが、あえて、後にした。不精確さ(imprecision)： 1. もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。 2. 基本的にランダム化比較試験は、2つの治療に臨床的に差があると判断できる最小の値を利用して必要な症例数を計算して行っているはず。しかし、たとえ、閾値をまたいでなくても、そもそも、メタ分析として複数の研究を統合した全体の症例数が、必要な症例数に満たなければ、不精確と言える（1つでも、症例数を適確に計算してある論文が含まれていれば、必要な症例数以上になるが、残念ながら、そうでないことが多い）。または、症例数・イベント数そのものも評価も検討（後で説明）用語：GRADE guidelines 32よりで述べたように、閾値（Clinical Decision Threshold）としては、その診療ガイドラインのパネリストが、大きい・中等度・小さい効果の閾値を決めて、それに対して確実性があるかを評価する。その中で、小さい効果の閾値は、minimally important difference（MID)と同じと考えて良い。そして、多くが、MID（ small effect）で評価することが多い（後のスライドで MIDの注意点を解説）。追加説明：1．2．を逆に考えても同じ。必要な症例数がなければ、そもそも不精確。これは、感覚的にも納得できる。必要な症例数があっても、臨床判断の閾値をまたいでいたら、不精確である。 3.7. Clinical decision threshold and minimally important difference https://processbook.kce.fgov.be/node/134 Minimal clinically important difference: The basics https://www.medwave.cl/link.cgi/English/Reviews/MethodlogicalNotes/8150.act?ver=sindiseno ＊GRADE guidelines 6. Rating the quality of evidenced imprecision. 23

24.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 1．もし、95%信頼区間の上端と下端で、臨床判断の閾値をまたいでいたら、そのデータは不精確。閾値（多くは、MID)の決定は、困難だが、1つの値を決定できれば、95%信頼区間の上端と下端で、判断が異なれば、不精確となる（効果なしのラインではない）。しかし、閾値を1つの値として決定できないことも多い（1つぐらいのアウトカムなら可能でもすべてのアウトカムの閾値は不明なことが多い）。そのため、臨床決断の具体的な閾値を決定せずに不精確さを評価する方法もある。医療の状況（コンテキスト）によって異なるが、できる限り状況を仮定した場面での方法である（あくまでも、「できる限り」だが、fully contexualized approach 完全コンテキスト化アプローチとよぶ）。アウトカム死亡：最小臨床的効果(MID) 効果なし介入Aを使用介入Aを使用しない -4.0% -2.0% 介入A優位 -0.5% －1.0％ RD=0 対照優位判断が異なるので、不精確となる Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 24

25.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 1． Hultcrantzらの、完全コンテキスト化アプローチ。不精確さを検討するアウトカム（ア）以外のアウトカム（イ・ウ・エ・オ）の点推定値を利用して、（ア）のアウトカムの95％信頼区間の上端と下端で利益と害のバランスが逆転するかを判断する。前提条件：（1）利益と害の両方の重大なアウトカムがすべて、数値化されていること。（2）アウトカム間の相対的価値が効用値などで数値化されていること。具体例：数値が小さい方が、介入Aが良いとする。よって、ーが利益で＋が害。（1）不精確さを検討するアウトカム（ア）：絶対効果差RD -14 [+32～-53] （2）それ以外のアウトカムのRD（イ）-34、（ウ）-33、（エ）-6、（オ）+5（害）（3）相対的価値：（イ）（ウ）（オ）が1とすると、（エ）が2倍（ア）が3倍手順：（1）それ以外のアウトカムの利益と害のバランス：(-34)+(-33)+(-6)×2+(+5)=-74 益（2）（ア）の95%CI下限(+32)を考慮すると：(+32)×3+(-74)=+22 害（3）（ア）の95%CI上限(-53)を考慮すると：(-53)×3+(-74)=-233 益判断：信頼区間の下限と上限で決断は変ることから不精確さが深刻となる。この判定を、（イ）～（オ）のアウトカムで繰返して判定していく。もし、この時点で上限と下限で決断が同じでならば、次に、不精確さの評価の2．として症例数の検討へ進むことになるが、上記の例では、深刻だったので、1．の検討まで。感想：たしかに閾値はないが、たまたま（イ）～（オ）の合計がバランスが拮抗していたら影響を受けないのか？腑に落ちない（3．のスライドで少し解説）。そもそも、害（オ）などの研究は、バイアスのリスクが大きい場合がある。それを、点推定値を信用して計算することの不確実性はないのか？前提条件を満たすのが困難という問題もあるし、次にOIS を検討なら閾値（差・デルタ）必要となってしまう。 Hultcrantz M, Rind D, Akl EA, et al. The GRADE Working Group clarifies the construct of certainty of evidence. J Clin Epidemiol 2017;87:4–13. 25

26.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 2．イベント数・症例数。閾値のみでの検討ではダメな理由：そもそも検出力を満たさないほどの少ない症例数では、不精確となる。また、イベント数が少ないと信頼区間が脆弱（fragility）であるから。 2－1．システマティックレビューに含まれる患者の総数が、1回の十分な検出力のある試験の従来のサンプルサイズ計算によって生成された患者数より少ない場合は、不精確さの評価を下げる。この値を「最適な情報サイズ」（OIS）と呼ぶ。オンライン計算機 http：//www.stat.ubc.ca/∼rollin/stats/ssize/b2.html OISのための臨床的に意味のある差の大きさが決定できない場合は、20％から30％のRRRを使用することを GRADEでは薦めている。また、検出力は、サンプルサイズよりイベント数と大きな関りをもつため、OISでなく、イベント数とRRRの大きさで不精確さを評価する方法もある。また、信頼区間の幅について、サンプルサイズは二次的決定要因であり、一次的要因はイベントの絶対数です。よって、イベント数の条件によっては、サンプルサイズが大きくなると幅が広くなることがあることに注意すること。注意：ただし、Robaysらによると、サンプルサイズを「minimally clinical importance」のRRRだけでよいと思わないようにしたい。これは、研究を立ち上げる際のサンプルサイズ計算には適しているが、脆弱性の判断には適していない（パラドックス）。MICIが小さいために、期待される効果が臨床的に重要な効果よりもかなり大きい場合（例えば、小児の死亡率に対する小さな効果が重要であると考えられる場合）、必要なサンプルサイズが大きすぎることになり、正当な理由なくダウングレードされる危険性がある。OISは信頼区間の安定性を判断するためのものであり、研究が差を検出するのに十分な大きさであったかどうかを判断するものではない。 Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 https://jamaevidence.mhmedical.com/content.aspx?bookid=847&sectionid=69031477 Robays. https://processbook.kce.fgov.be/node/140 26

https://jamaevidence.mhmedical.com/content.aspx?bookid=847&sectionid=69031477

27.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 2．イベント数・症例数。 2－2．イベント数が極めて小さい場合は、サンプルサイズが大きくても信頼区間が広くなる。まず、相対効果と絶対効果と信頼区間の関係を説明する。7つのRCTのシステマティックレビューでA治療1,482例中16例（1.1％）、B治療1,465例中19例（1.3％）が死亡。RR は、0.85[0.43-1.66]であり、利益と害をまたぎ、不精確である（イベントが少ないと相対効果では信頼区間が広くなる）。しかし、絶対的な差は0.2％[-0.5％～1.0％]であるので、絶対差1％（MIC）を臨床判断の閾値の境界とした場合、どちらの治療も有用となるので不精確とならないような矛盾が生じるので、絶対効果を利用する。次に、ベースライン（対照）のイベントが低い状況（<5％）の場合、群間の臨床的な差がかなり大きくないと（もちろん大きくない場合が多い）、OISを計算すると10,000人ぐらいになることも多く、基準を満たさないことが多くなる。しかし、このような場合でも、合計4,000人の患者（グループあたり2,000人の患者）の場合では、信頼区間は脆弱とならないと判断して、不精確としなくてよいとされている。 Schünemannは、もっともらしい効果の大きさとして、modified OIS or review information size (RIS)の用語を述べており、今後、更新されるかもしれない。 Interpreting GRADE's levels of certainty or quality of the evidence: GRADE for statisticians, considering review information size or less emphasis on imprecision? 27

28.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 3．その他 OISを十分に満たすにもかかわらず、信頼区間が効果なしを除外できない場合を考える。たとえば、非心臓手術におけるβブロッカーのシステマティックレビューにおいて、総死亡については、295名の死亡者と10,000名以上のサンプルサイズがあり、βブロッカーによるRRの点推定値と95%CIは1.24（95%CI：0.99, 1.56）である。この場合、サンプルサイズとイベント数が多いにもかかわらず、信頼区間が効果なしをまたいでいるので（システマティックレビューの場合の定義）、精度が十分であると結論づけることには抵抗があるかもしれない（＊）。 ↑元の文章のため、どうしてもこんな訳となる。逆の意味のがすっきりするが、少なくとも推測するに、サンプルサイズとイベント数が大きく95%信頼区間が狭いにも関わらず、臨床判断の閾値をまたいでいるから「不精確」だった場合、定義的には理解できても、漢字のイメージより感覚的に納得いかないかもしれない。＊の原文：Despite the large sample size and number of events, one might be reluctant to conclude precision is adequate when a small reduction in mortality with β blockers, as well as an increase of 56%, remain plausible . 他の所には、despite the huge sample size and very large number of events, trial results are insufficiently precise to support a treatment recommendation, and rating down quality by one level for imprecision is mandated. Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 GRADE guidelines: 12. Preparing Summary of Findings tables—binary outcomes 28 GRADE guidelines: 13. Preparing Summary of Findings tables and evidence profiles—continuous outcomes

29.

Ｙ：CPGにおける不精確さ GRADE guidelines 6より 4．連続量の場合連続量のOISでよく問題となるのが、アウトカムを測定する方法が異なるためOISの計算に用いる平均差（デルタ）を決める事が困難である（よってメタ分析の推定値が、標準化平均差を用いて算出される）。このような場合、レビュアーは利用可能な測定方法のうち1つを選択し（理想的には、最小重要差の推定値が利用可能な方法）OISを算出する。以下は、本文を私なりに超訳したので、正確には原文を読んで：連続変数の適切な精度に必要な患者の絶対数に経験則のしきい値を使うと、本来の研究の群間のバランスを保つのに、サンプルサイズが少ないにもかかわらず、計算できてしまうので、誤った安心感を与える可能性がある。たとえばα（0.05）β（0.20）を用い，経験則で用いられることがある効果が小さいことを示す0.2標準偏差の効果量を用いると、合計で約800人（各群400人）のサンプルサイズが必要となるので、これをOISとして評価したいが、実は、これは、研究を通じて２群間のバランス（ prognostic balance）を確保するのに十分ではない可能性がある。そのため800人以上でも、不精確な可能性があるが、それを評価するのは困難だろう。そのため、とりあえずサンプルサイズが800未満の場合は、レビュアーやガイドライン作成者は、必ず不精確さの評価を下げることを検討するしかない。注意：ネットワークメタ分析NMAに関しては、ここでは取り扱わない（https://www.biorxiv.org/content/10.1101/597047v1.full）。 prognostic balance：研究の割付・介入・結果の評価にわたって両群でバランスが取れるという意味。（ https://www.bristolctoralsurgery.com/files/2015/03/practical-approach-to-evidence-based-dentistry-III-how-toappraise-and-use-an-article-about-therapy.pdf ） 2021年に元の400人（各群200人）から800人に訂正があった。 Guyatt GH, Oxman AD, Kunz R, Brozek J, Alonso-Coello P, Rind D, et al. GRADE guidelines 6. Rating the quality of evidenced imprecision. J Clin Epidemiol 2011;64:1283e93 29 Corrigendum to GRADE guidelines 6. Rating the quality of evidence-imprecision. J Clin Epidemiol 2011;64:1283–1293

https://www.biorxiv.org/content/10.1101/597047v1.full

30.

Ｙ：CPGにおける不精確さ GRADE guidelines 20より 5．フローチャート GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences —inconsistency, imprecision,30 and other domains

31.

Ｙ：CPGにおける不精確さ信頼区間の確認信頼区間が、推奨と推奨しないの間の決断閾値をまたいでないか？ GRADE guidelines20より 5．フローチャート不精確さダウンサンプルサイズの確認サンプルサイズは、レビューの情報に対して充分なサイズか？不精確さダウン不精確さダウンしない GRADE guidelines: 20. Assessing the certainty of evidence in the importance of outcomes or values and preferences —inconsistency, imprecision,31 and other domains https://www.jclinepi.com/article/S0895-4356(17)31061-2/fulltext

32.

「エビデンス全体の確実性」についてさて、エビデンスの確実性に関係するグレードダウンの5要因を検討し、死亡とか心筋梗塞とか入院とかの、各アウトカムのエビデンスの確実性が評価された（システマテックレビューでは、ここまでである）。しかし、死亡のアウトカムのエビデンスの確実性は高いが、心筋梗塞のエビデンスの確実性は低いなどバラバラでは、臨床決断に役立てることはできない。そのため、診療ガイドラインでは、患者にとって重大なアウトカムの全てを同時に検討し、その治療のアウトカム全般にわたる全体的なエビデンスの確実性を評価する必要がある。この治療法としてのエビデンス全体の確実性は？ 32 https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD013587.pub2/full

https://www.cochranelibrary.com/cdsr/doi/10.1002/14651858.CD013587.pub2/full

33.

GRADEアプローチによる、エビデンス総体（Body of evidence）の確実性の評価ある推奨を行なう場合、その推奨を行なうために参考にしたエビデンス（効果推定値の全体的）の確実性を明示することは、利用者にとって、その推奨の使用の判断に極めて役立つ。よって、システマティックレビューでは、アウトカムごとの確実性の評価であったが、診療ガイドラインにおいては、臨床疑問の推奨に対して1つのエビデンスの確実性を示す必要がある。本解説の主目的のアプローチでは、この基準と違う方法となる。一応、次のスライドで解説する。注意：先のスライドでも述べたように、システマティックレビューと診療ガイドラインでは、グレードダウンの5要因の1つである「不精確さ」の評価が異なる。よって、システマティックレビューで評価した各エビデンスの確実性の評価をそのまま使用することができない。そのため、あらためて「不精確さ」を診療ガイドラインでの評価で再評価して、各アウトカムのエビデンスの確実性を求めてから、エビデンス全体の確実性の評価を上記の基準で行なう。 33

34.

Body of evidenceの確実性：相原先生・辻本先生のチェック受けていないスライド原則：（どうも、同じ方向なら最も高いものっていうことでもないようだ）意思決定に重要なアウトカムについては、全体的な確実性が各アウトカムの最低の確実性よりも高くなることはないというのが論理的である。この原則に基づいて、全体的はエビデンスの確実性を解説していく。 1. アウトカムが、臨床決断にとって、重大（必須）か、重要（判断に直接関与しない）かを区別する。どのアウトカムが重大かは、作成プロセスの初期段階で重要と判断された結果から得られるとは限らない。例えば、ある有害事象（例：重度の吐き気や嘔吐）は、当初は重大であると考えられていても、発生頻度が非常に低いことが判明した場合（例えば、患者の3％未満）、その有害事象は重要だが重大ではないと最終的に判断されることもある。 2. 重大なアウトカムの中で、最も確実性が低いものを、全体的なエビデンスの確実性とする。←原則 3. ただし、マレではあるが、ある介入を支持する決定を支持するいくつかの重大な結果に高い確実性がある場合（すなわち、重大な結果の利益が介入の望ましくない効果を明らかに上回り、それについても確実性の高い証拠がある場合）、同じ勧告を支持する他の重大な結果の確実性が低いからといって、確実性を低く評価する必要はない。例：冠動脈性心疾患（CHD）でないがリスクの高い人のスタチン服用の推奨について。重大としたアウトカムは、心筋梗塞（有意に減少・確実性高）、脳卒中（有意に減少・確実性高）、有害事象（マレで回復した・確実性高）、 CHDによる死亡（有意に減少しなかった0.77（95％CI、0.56-1.08）・確実性中（不精確さ））。この場合、「ほとんどの患者は、脳卒中と主要冠動脈イベントのリスクがスタチンにより減少することが証明されれば、薬を使用する説得力のある理由を見つけるだろう。冠動脈疾患死亡率が減少するかどうかは、（増加する可能性が極めて低い限り）もはや決定には関係しない。このように考えると、総合的な確実性は高とするのが最も適切である。」と判断することもある。 GRADE guidelines: 11. Making an overall rating of confidence in effect estimates for a single outcome and for all outcomes 34

35.

少し、流れをまとめてみる疑問の定式化・PICO アウトカムごとにメタ分析を行った後に、アウトカムの選択・重要性の評価アウトカムごとに複数の研究を統合・メタ分析統合したエビデンスを一覧表にする各アウトカムのエビデンスの確実性の等級付け・グレードを下げる5要因 Risk of bias 非一貫性非直接性その他の考慮事項（出版バイアス）不精確さ診療ガイドラインとして、グレード下げる5要因を検討して、アウトカムごとのエビデンスの確実性を決定する（赤の矢印の流れもあるので注意すること）。その後、それらのアウトカムごとの確実性から、アウトカム全体としてのエビデンスの確実性を評価する。各アウトカム別に確実性を決定利益と害のバランス推奨の強さと方向の評価の基準“criteria” 推奨文作成全体的なエビデンスの確実性価値必要なら、必要資源量（コスト）・公平性などそして、推奨の強さと方向を、利益と害のバランス・全体的なエビデンスの確実性・価値観と意向などの要因から評価する。本スライドでの説明は、コスト以下その他の要因を考慮しない。 35

36.

各アウトカムの結果から、推奨を考えるためにここまでで、その治療のエビデンス全体の確実性が明らかとなった。しかし、システマテックレビュー・メタ分析で行なった効果推定値は、アウトカムごとに提示されている。診療ガイドラインでは、これら複数のアウトカムから、いろいろな医療の状況（context）を考えて、その治療を奨めるか否かの決断をすることになる。このようないろいろな状況をしっかりと考えるということを、完全に文脈化・コンテキスト化されたアプローチと呼ぶ。逆に、システマティックレビューでは、データを統合するまでが目的のため、これらのいろいろな状況をすべて考えなくても良いので、部分コンテキスト化で良い場合が多い。そうすると、利益のアウトカムAの閾値が2％減少で、利益のアウトカムBの閾値が10％減少で、害のアウトカムCの閾値が5％増加、、、などのように、利益と害が混じり合った複数の閾値を同時に検討することになる。そのような検討は、現実的に一般的な者の能力を超えている可能性がある。害アウトカムCの閾値5％増加アウトカムBの閾値10％減少アウトカムAの閾値2％減少 36

37.

Alperらの完全コンテキスト化アプローチとは（紹介）？このような、すべての重大なアウトカムとそれらの相対的価値を同時に考慮しながら、望ましい結果と望ましくない結果のトレードオフを決定するアプローチを、Dynamed の創設者のAlperらが提案した。これは、GRADEアプローチとして認められたものでなく、議論を刺激するために公開されたものである。しかし、そのコンセプトを理解することが、診療ガイドライン作成だけでなく、システマティックレビューを読みこなしEBMの実践するために重要と判断し、解説を行うこととした。 https ://www.ebsco.com/blogs/health-notes/end-era-dynamed-founder-begins-new-chapter 37

38.

その前に：今回考察する実際の診療ガイドラインは？ 9 切除可能な進展例の治療の KQ と SR KQ：切除可能で外科療法を予定している症例に対して，術前治療を行うべきか(SR1) ⚫ エビデンスの確実性：低 ⚫ 価値観・意向：全生存率をもっとも重大なアウトカムとする・早期の外科療法を希望するなど、ばらつきは少ないと考えられる。 ⚫ コスト：高額療養費制度によってバラツキは少ない。 ⚫ 利益と害のバランス：全生存率において、メタ分析の結果，術前治療（ 3 クール）によって死亡が 1000 人中 12 人減少（95％信頼区間 105 人減少～ 95 人増加）となった。3 クールの化学療法の有害事象の可能性を考慮すると、点推定値では死亡という重大なアウトカムが減少だが、利益より害が大きいと判断された。推奨：切除可能な進展例に対して、導入化学療法による術前治療を行なわないことを弱く推奨する（弱い推奨/エビデンスの確実性：低）。注意：術前治療の推奨は手術療法を含む局所治療に関するものである。早期に治療を行えない場合もあり、すべての術前治療を制限するものでない。 38 注意：説明のため、一部、言葉を追加しています。評価の根拠は診療ガイドライン本文を参照。

39.

今回のCQ（できる限り包括に行った）では、少しPICOが不明確との指摘があるので、もう少しPICOを明確化して整理してから解説に進む。 CQ:切除可能で外科治療を予定している症例に対して術前療法を行なうべきか？ P＝切除可能な伸展例（Stage２～３以上） I＝術前化学療法は、シスプラチンやフルオロウラシルを中心とした多剤併用療法で、２～３サイクル C＝術前化学療法なし O＝パネル（SRチームや利害関係者を含む）はアウトカム（O）を、最初に、以下のように8個選出したと仮定（口腔癌診療ガイドライン2019 より・後のスライドで競合アウトカムなどを整理することになる）。１．全原因死亡（OS）２．口腔癌そのものによる死亡３．局所再発４．遠隔転移５．発熱性好中球減少６．QOL ７．重症有害事象（Grade 3以上）８．口腔機能（一部のデータや解釈には仮想的なものが含まれています） 39

40.

Alperらの、完全コンテキスト化アプローチの解説の前にこのアプローチは、以下の３つの仮定に基づいているが、ここでは、そうなんだという程度で解説をすすめる。１．効果推定値は正規分布に準拠したデータを表す。２．統合される効果推定値は独立しており、互いに相関していない。３．統合される効果推定値に、換算係数を掛けて、一貫した測定単位を使用する。本解説では、「正味の効果・net effect」、「正味の利益・net benefit」など用語がでてくる。厳密な区分がないが、原文に以下の記載がある。少し細かいが、たぶんエビデンスの確実性の定義の本質的な問題のため説明する。「Consistent with the recent clarification of ‘certainty of evidence’—the certainty that a true effect lies within a specified range or on one side of a specified threshold3 — one can express the certainty of the net effect (or balance of benefits and harms) in terms of a range or in relation to a threshold. The situation when benefits and harms are perfectly balanced (net benefit or harm=0) represents a natural threshol d for certainty of the net effect. Using this threshold, the certainty of net benefit is the certainty that the overall or net effect lies on the side of benefit. The certainty of net harm is the certainty that the net effect lies on the side of harm.」このポイントは、以下であるが、これは先に「「エビデンスの確実性」の定義」で解説した内容でもある。・エビデンスの確実性は、正味の効果が特定の範囲または特定の閾値の片側にあることの確実性と明確化された。・正味の効果・net effect（利益と害のバランス・balance of benefits and harms）の確実性は、範囲または閾値に関連して表現することができる。・利益と害が完全にバランスをとれている（正味の利益または害が0）の状況は、正味の効果の確実性の自然な閾値（閾値0）とも言える。・この閾値0を用いると、正味の利益の確実性（certainty of net benefit）とは、全体または正味の効果が利益の側にあるという確実性であり、正味の害の確実性（certainty of net harm）とは、正味の効果が害の側にあるという確実性である。この文章より、メタ分析の各アウトカムの値を利用して「正味の効果」を算出した場合や、一般的なエビデンス全体に対して「正味の効果」という用語と使用している。そして、その「正味の効果」に対して、利益・害のどちらかを、自然の閾値であるゼロを起点に分類したものを、「正味の利益」・「正味の害」と表記して区別していると推察される。すなわち、「正味の効果」が0.5 (0.6-0.4)と明らかに「利益」であっても、閾値を考慮する前は、あくまでも「正味の効果」として表現している。さらに、閾値を考慮した後でも、一般的なエビデンス全体として用語を使用する時は、「正味の利益」でなく「正味の効果」としている。利益利益害正味の利益正味の効果正味の効果正味の効果正味の効果利益利益と害が完全にバランスをとれている閾値0 正味の害害 40

41.

Alperらの完全コンテキスト化アプローチとは（解説）？以下のアプローチは、システマティックレビューが終了後に、その結果の一部を診療ガイドラインのために再検討しながら行う Generation of the net effect estimate・正味の効果推定値の生成 Step1：組み合わせるアウトカムの決定システマティックレビューが終わった後に、重大なアウトカムの再検討の必要が出てくる場合がある。例えば以下のような場合である。例1：当初、ある特定の有害事象が重大と考えられたが、エビデンスをまとめてみると、非常に頻度が低く、推奨決定においては重大ではないと判断された。例2：当初、全死亡、心血管死亡、心筋梗塞、有害事象が重大と考えられていた。SRの結果、全死亡、心筋梗塞、有害事象は高い確実性を持って、推奨を支持する結果であった。しかし、心血管死亡については推奨を支持する結果であるものの、中等度の確実性だった。このような場合に、心血管死亡は他のアウトカムと独立していない（全死亡と関係がある）こともあり、推奨をする上で必要でないと判断された。 41

42.

アウトカムを、重要性・独立性より、どの組み合わせで採用するか決める重大性の低いアウトカムによる正味の効果推定値への希釈的影響を回避するためアウトカムの数は最大でも7個とするのが望ましい（7個でも多く、解釈に困ることがある） # アウトカム重要性（1-9）独立性アウトカムの採用 1 全原因死亡（OS） critical (9) 独立している採用 2 口腔癌そのものによる死亡 critical (8) 独立していない採用しない 3 局所再発 critical (8) 独立している採用 4 遠隔転移 critical (8) 独立している採用 5 発熱性好中球減少 (*) important(4) 独立していない採用せず 6 QOL (¶) important (6) 独立していない採用せず 7 重篤有害事象（Grade 3以上）(†) critical (8) 独立している採用 8 口腔機能 important (6) 独立していない採用せず *:好中球減少による発熱は重篤有害事象と重複する可能性が高い。 ¶:他のアウトカムと重複する可能性が高い。また、反応が異なる個々の患者への影響を考慮すると、連続スコアの平均を使用すると誤解を招く可能性がある。 †:重篤有害事象（SAE）の定義は、非血液毒性のGrade（3-5）とした。 42

43.

アウトカムを、重要性・独立性より、どの組み合わせで採用するか決める重大性の低いアウトカムによる正味の効果推定値への希釈的影響を回避するためアウトカムの数は最大でも7個とするのが望ましい（7個でも多く、解釈に困ることがある） # アウトカム重要性（1-9）独立性アウトカムの採用 1 全原因死亡（OS） critical (9) 独立している採用独立していない採用しない独立している採用独立している採用独立していない採用せず独立していない採用せず独立している採用独立していない採用せず 2 3 4 5 6 7 8 口腔癌そのものによる死亡 critical (8) 本当に、7個のアウトカ局所再発 critical (8) ムすべてを考えて、診遠隔転移 critical (8) 療していますか？発熱性好中球減少 (*) important(4) もっとシンプルに考え QOL (¶) important (6) て決断しているのでは重篤有害事象（Grade 3以上）(†) critical (8) ないでしょうか？口腔機能 important (6) *:好中球減少による発熱は重篤有害事象と重複する可能性が高い。 ¶:他のアウトカムと重複する可能性が高い。また、反応が異なる個々の患者への影響を考慮すると、連続スコアの平均を使用すると誤解を招く可能性がある。 †:重篤有害事象（SAE）の定義は、非血液毒性のGrade（3-5）とした。 43

44.

決定したアウトカムのメタ分析の結果を確認アウトカム相対危険度(95%CI) 2019年版における確実性全原因死亡 HR 0.96 (0.68-1.33) 非常に低局所再発 HR 0.94 (0.64-1.38) 非常に低遠隔転移 HR 0.91 (0.64-1.30) 非常に低重篤有害事象 RCTの論文から抽出非常に低 HRの抽出した値など、若干問題も指摘されているが、今回は、この値を利用して解説する。また、重篤有害事象に関しては、口腔癌診療ガイドラインでは、 RCTの論文から抽出した項目の列挙のみであった。そのため、メタ分析の点推定値は、いずれも介入優位であった。しかし今回は、新たに以下のように数値化して検討することとした。そのため、次のスライド、または、Step３で示すような点推定値となる（害の数値化で正味の効果が変わるので、慎重に行う必要がある）。 *: エビデンスの確実性について不精確さのための評価（等級ダウン）はしない。注１．オリジナルのエビデンスプロファイル：evidence_pr ofile_0501.pdf 注２．重篤有害事象アウトカムのフォレストプロット：f orest_ plot_SAE.j pg 44

45.

各アウトカムのエビデンスの確実性については、GRADEダウンの5要因の中の不精確さ以外の4要因のみの状況確認エビデンスの確実性を検討するための要因の1つである、不精確さ（imprecision）については、定義がシステマティックレビューと診療ガイドラインとでは異なる。そのため、システマティックレビューでのエビデンスの確実性の再評価が必要となる。アウトカム患者1000人あたりの絶対効果推定値(95%CI) 効果推定値の確実性全原因死亡 -12 (-107 ～ +93) Low (RoB, indirectness) 局所再発 -17 (-109 ～ +98) Low (RoB, indirectness) 遠隔転移 -9 (-35 ～ +28) Low (RoB, indirectness) 重篤有害事象 +59.5 (+1.4 ～ +700) Low (RoB, indirectness) 重篤有害事象：RR 20.50[1.49 to 282.60]、この時のコントロールは、研究1（0/99）、研究２（0/128）なので、イベントが０なので、0.5の補正で、（0.5/99.5）（0.5/128.5）より（1/228）だから、(4/1000)。よって、RR倍で介入が (82/1000)なので、RDは、82＋4（RRが１より大だったのでプラス）＝86/1000人（これは、相原先生がブログに添付しているエビデンスプロファイルと同じ数字になる）。よって、この＋59.7は誤り。相原先生のチェック後気がついたので、そのままとする。 45

46.

Step２：各アウトカムの相対的重要性（Relative importance of outcomes）の決定 GRADEアプローチでは、アウトカムの重要性の質的９ポイント評価のスコアより、7・8・9を選んでいるが、これを利用するのは目的が異なり困難であるため、一旦このスコアは関係ないものとする。相対的重要性の決定の簡単な方法は、1つのアウトカムを参照アウトカムとして選択し、他のアウトカムごとに相対的な重要性の調整（すなわち乗数・よって0は使用しない）を定義するとよい。これは、決断分析の不効用値（disutility = [1- utility]）に類似した考えである。注意：原文では、ユーティリティは0（死亡または最悪の転帰）から1（最適な生活の質または最良の転帰）の範囲で報告されることが多いとされているが、最も重要なアウトカムを参照アウトカムとした。そのため、その参照アウトカムにあうように他のアウトカムをそろえる（全死亡が参照なら局所再発数・生存が参照なら局所再発の減少数となる）シナリオでは、表のような値と仮定する。アウトカム不効用値全原因死亡 1 局所再発 0.5 遠隔転移 0.5 重篤有害事象 0.7 46

47.

相対的重要性・価値について補足 GRADEアプローチでは、推奨の決定の要因の中で重要なものの1つとして、「values and preferences（価値観や意向（選好））」との用語であるが、 GRADEpro/GDTでは、「Values（価値）」となっている。その評価は、「uncertainty or variability（不確実性または変動性）」があるかどうかであるが、それ以外にも効用値（utility値）も記載することが望ましい。もし重要な不確実性がないならば、効用値は1つの値として示すことができるが、不確実性がある場合は、効用値の値も変動すると考えられる。1つの値でなく、範囲を持った値になり、不確実性が強ければ、その範囲も大きくなる。また、たとえ1つの値として示すことができても、実際には”ある範囲”で評価するのが現実的である。よって、Step6での感度分析が重要となる。患者の視点から相対的重要性を定量的に推定する方法としては、離散選択実験（discretechoice experiments）や患者嗜好調査（preference-eliciting surveys）、または、調査のシステマティックレビューなどがある。 47

48.

Step３：重要性調整効果推定値の併合各効果推定値にその相対的重要性の乗数を掛けたものを、重要性調整効果推定値（Importance-adjusted effect estimate）と呼ぶ。重要性調整効果推定値のそれぞれの点推定値を合計すると、正味の効果の点推定値（Net effect estimate）となる（この例では34.5）。統計式（原著論文付録：bmjopen-2018-027445supp001.pdf）により、正味の効果の95%信頼区間も計算が可能で、本シナリオの場合の正味の効果(net effect)は、34.5 (95%CI: -333 ～ +402）。これは「不精確さの分類」としては、本シナリオでは、マイナスが介入有益なのにプラスなので害・possible net harmとなる。ここで、診療ガイドライン委員会は、正味の効果の閾値を指定する。しかし、Alperらは単純化のために「ゼロ効果」を用いることを提案している。しかし今回のシナリオでは、閾値を利用する（相原）。アウトカム患者1000人あたりの相対的重要性患者1000人あたりの全原因死亡相当イベント単絶対効果推定値(95%CI) 位による重要性調整効果推定値(95%CI) 全原因死亡 -12 (-107 ～ +93) 1 -12 (-107 ～ +93) 局所再発 -17 (-109 ～ +98) 0.5 -8.5 (-54.5 ～ +49) 遠隔転移 -9 (-35 ～ +28) 0.5 -4.5 (-17.5 ～+14) 重篤有害事象 +85 (+2 ～ +1000) 0.7 +59.5 (+1.4 ～ +700) -12-8.5-4.5+59.5=+34.5 重篤有害事象：86×0.7=60.2が正しい値だが、相 48 原先生チェック後に気がついたので、訂正してない。

49.

正味の効果推定値のオンライン計算ツールも利用可能 http://net-effect.wisdmforafib.com/ ４つのアウトカムの絶対効果推定値を95%CIを含めて入力し、相対的重要性を乗じて得られた正味の効果の推定値が図と表で簡便に計算可能である。 49

http://net-effect.wisdmforafib.com/

50.

Rating the certainty of net benefit・純利益の確実性の評価コンテキスト化と精確さについて（確認）この例は、先のスライドの正味の効果でなく、ある1つのアウトカム（死亡）についての説明ではあるが、これらの事が理解できていることを前提に、以下の解説が進むので、確認の意味もあり復習する。アウトカム死亡：最小臨床的効果(MID) 効果なし -4.0% 一部の人は、介入 A が対照と比較して死亡率を低下させるという確信を評価するかもしれない。したがって、不精確さのために評価を下げる必要はない。他の人は、死亡率の 1% の減少に小さな効果の閾値を設定すると、不精確であるために評価が下がる。また、コンテキスト化とは、以下の情報と考えると良い。 -2.0% 介入A優位 -0.5% －1.0％大きい効果の閾値中等度 MID RD=0 対照優位効果なし Large moderate small trivial 最小コンテキスト化：RR=1、RD=0だけ、またはMID が明確になっている場合。部分コンテキスト化：些細trivial・小規模small・中程度 moderate・大規模largeな効果の範囲が明確になっている場合。完全コンテキスト化：アウトカムの相対的重要性の効用値まで明確になっている場合。よって、 Alperらが単純化のため”正味の利益の閾値＝０”を推奨していても、完全コンテキスト化のアプローチとなる。 GRADE guidelines 32: GRADE offers guidance on choosing targets of GRADE certainty of evidence ratings. 2021. https://doi.org/10.1016/j.jclinepi.2021.03.026 50

https://doi.org/10.1016/j.jclinepi.2021.03.026

51.

正味の効果の点推定値（Net effect estimate）と精確さについて（確認） Step３における重要性調整効果推定値のそれぞれを併合して得られた正味の効果推定値（Net effect estimate）は34.5 (95%CI: -333 ～ +402）。よって、1000人中34.5人なので、約3.5％だから、-3.5 (-33～ +40)%。つまり、Alperらが単純化のため推奨している”正味の利益の閾値＝０”として利益と害のバランスを評価するならば、”点推定値は有害で、信頼区間の下限は有益で、その絶対値は正味の効果の点推定値よりも大きい”ことから、95%CIからは”possible net harm”と判定される。しかし、実際の診療ガイドラインパネルは、推奨のための「臨床における最小重要差（MID：Minimally Important Difference）」を利用する事が多い。また、場合によっては「中程度の大きさ」、「大きい効果」などの閾値も利用することになる。今回のシナリオでは、相原先生のブログに従ってMIDと大きい効果の閾値を使って説明する。参考単位に効用値で合しているので、全原因死亡の閾値を利用することとなる。上図はAlperらの原文でなく相原先生作成 51

52.

Step4：シナリオにおける正味の効果推定値の精確さの分類 Classify the precision of the net effect estimate シナリオの場合に、全原因死亡が参照単位であることからMID=2%（20/1000）と設定したと仮定。また、大きな利益と大きな害として、閾値=10%と設定したと仮定。正味の効果推定値の点推定値（3.5%）は、このMID（害の閾値）（2%）に近く、信頼区間は大きな利益と大きな害（10%・100人）の閾値を超えてる。つまり「精確さ」の評価は、“possible no net effect or harm”となる。注意：Alperらは、imprecisionではなくprecision of effect estimateという言葉を使用。よって、正味の効果推定値の「精確さ」は、非常に低い確実性（very low certainty）となる。しかし現実的なパネルの判断としては、”95%CIが非常に広く真の効果がどこにあるのか全くわからないほどの「不精確さ」なので、そもそもエビデンスの確実性のレベルを評価す 52 る意味が全くない”と判断するパネルもあると思われる。

53.

Step5：正味の利益の可能性に重大なアウトカムの効果推定値の確実性を検討する Consider the certainty of effect estimates for outcomes that are critical to the likelihood of net benefit. 採用したシナリオでは、エビデンスの確実性が、正味の効果推定値の精確さが3段階ダウンするので、すでに「very low」が決定してしまうため、このStep5は不要だが、一般的なコンテキスト化アプローチにおけるプロセスのためにさらに解説する。まず、不精確さ（imprecision）は95%信頼区間を調べることにより（確実性の程度として）定量化できるにも関わらず、各アウトカムの他の４要因（RoB・非一貫性・非直接性・出版バイアス）に懸念があると、 95%信頼区間の範囲の推定値の確率分布の幅と形状を知ることができなくなる（すなわち、他の4要因で既にエビデンスの確実性が非常に低ならば、信頼区間を利用したここまでのアプローチそのものができないことになる）。そのため、以下のような手順で考えると良いだろう。（１）正味の効果推定値（ net effect estimate）の精度（ precision）の分類・評価を変える可能性のあるアウトカムを（差別化要因・ differentiator）探す。〇あるアウトカムを除外した場合、正味の効果推定値の精度が変わるようなアウトカム〇（確実性の低い効果推定値に対して）効果推定値への妥当な増加を追加した場合、分類が変わるようなアウトカム（２）（1）で探した重大なアウトカムの中でエビデンスの最も低い確実性を決定するには、各アウトカムの他の４要因（RoB・非一貫性・非直接性・出版バイアス）を導く必要がある。個々のアウトカムの不精確さは、これまでの正味の効果推定値の検討ですでに検討されているので、ここでは扱わない。（３）（1）で探した重大なアウトカムに対する確実性等級付けと、 Step4の正味の効果推定値の精確さ（ precision）と一致する確実性等級付けのうち、最も低いものが正味利益の確実性を表す。（４）評価者は、全体的なフレームワークを考慮し、単一のアウトカムの限られた確実性が正味の利益の全体的な確実性を下げるのに十分かどうかを判断する必要がある。たとえば、 net benefitの計算に入れた個々のアウトカムの中で3つが確実性高、1つが非常に低だった際に、この1つのアウトカムをもって非常に低まで確実性を落とすべきか？ということを判断しなければならない。これは、正味の効果の推定値の信頼区間が0に近い時は、 1つのアウトカムをもって確実性を下げないという判断もありうる（この判断は、理論的な根拠ではなく、慣例に基づいて使用される）。下図は概念の把握に有効な図であるので、しっかりと理解して欲しい。 53

54.

シナリオにおける正味の効果推定値の確実性（エビデンスの確実性）は？（1）重大アウトカムとしてアウトカム設定した４つのアウトカムの中で、参照基準としての全原全原因死亡因死亡以外の3つのアウトカ局所再発ムで、重篤有害事象（明らかに別方向の推定値）を除くと、遠隔転移正味の効果推定値の精度が変重篤有害事象ると思われるので、重篤有害事象が差別化要因と考えられる。患者1000人あたりの絶効果推定値の確実性(途中) 対効果推定値(95%CI) -12 (-107 ～ +93) Low (RoB, indirectness) -17 (-109 ～ +98) Low (RoB, indirectness) -9 (-35 ～ +28) Low (RoB, indirectness) +59.5 (+1.4 ～ +700) Low (RoB, indirectness) （２）（1）による重篤有害事象の不精確さドメインを除いた4要因でのグレードは「Low] であった（Step2参照）。（3）重大なアウトカム（重篤有害事象）に対する確実性等級付けが（2）より「low」で、正味の効果推定値の「精確さ」は、 Step4より「very low certainty」なので、最も低いものが正味の利益の確実性を表すため、「very low certainty」となる。（4）全体的なフレームワークを考慮しても、シナリオにおける正味の効果推定値の確実性（エビデンスの確実性）は「very low certainty」と考えられる。 54

55.

Step6：アウトカムに対する相対的重要性の範囲を検討する Perform a sensitivity analysis to determine the certainty of net benefit across this range. 感度分析を行い、この範囲における純利益の確実性を判断する。 step２で、各アウトカムの相対的重要性として効用値のようなものを各アウトカムごとに1つの値を決定した。しかし、実際の臨床では範囲で考えることは述べた通りである。よって、アウトカムの相対的重要性の妥当的な範囲全体にわたって正味の効果の確実性が変わらないかどうか（頑健性を）を感度分析で判断する。これによって、この完全コンテキスト化アプローチの実現可能性を高めることになる。このための明確なガイダンスは、現時点では開発されてないが、次のように考えるのが良いだろう。これには、先に紹介した、オンライン計算ツールを使うとすぐに計算できる。以下のようであるが、これは文章で書くだけだと理理解しづらいので、オンライン計算ツールで実際に行って欲しい。まず、 Step３における全原因死亡が参照単位（＝1）とみなされ、局所再発と遠隔転移の重要性を全原因死亡の0.5倍、重篤有害事象を0.7倍重要視するという仮定における重要性調整効果推定値のそれぞれを併合して得られた正味の効果推定値（Net effect estimate）は34.5 (-333 ～ +402）であった。シナリオのアウトカムをすべて同じ程度に重要視するならば（＝すべて１）、正味の効果推定値は-38 (-185 ～＋109)であり、正味の効果推定値の精確さが、大きな効果の閾値（±100人）をそれぞれ越えることより、「very low certainty」となり、その確実性は変わらない。また、重篤有害事象の重要性を全原因死亡の0.3倍とした場合でも、推定値は0.5 (-187 ～＋188)であり、その確実性は変わらない。つまり、「very low certainty」のままであり、アウトカムの相対的重要性の推定が不確実でも、頑健であることがわかった。 55

56.

少しまとめてみる疑問の定式化・PICO アウトカムの選択・重要性の評価アウトカムごとに複数の研究を統合・メタ分析統合したエビデンスを一覧表にする各アウトカムのエビデンスの確実性の等級付け・グレードを下げる4要因 Risk of bias 非一貫性非直接性その他の考慮事項（出版バイアス）ここまでの議論で理解できたはずだが、このAlper らの完全コンテキスト化アプローチでは、ステップ途中で不精確さを除く４要因のみの評価はあるが）、全体のエビデンスの確実性を直接評価している。そして、その過程で、価値・利益と害のバランス・正味の利益の精確さを十分に検討しているので、推奨の判断が容易となっている。差別化要因のアウトカムのグレード価値推奨の強さと方向の評価の基準 “criteria” 利益と害のバランス正味の利益の精確さ全体的なエビデンスの確実性必要なら、必要資源量（コスト）・公平性などを考慮した推奨作成推奨文作成これを記載すると、混乱のもとだが、一応知っておいて欲しい。CDCやWHOのコロナワクチンのCPGでは、介入の有効性のエビデンスの確実性と、介入の安全性のエビデンスの確実性とをまとめず、2つを並べた記載であった。 https://www.cdc.gov/vaccines/acip/recs/grade/covid-19-pfizer-biontech-etr-12-15-years.html https://www.who.int/publications/i/item/WHO-2019-nCoV-vaccines-SAGE-recommendation-BNT162b2GRADE-ETR-annexes 本シナリオでは：正味の効果推定値の確実性（エビデンスの確実性）は、(1)非常に低い確実性（very low certainty）、Step4で述べたが、一部のパネルは、(2)信頼区間の広さから確実性を評価することは無意味であると判断する可能性があるだろう。 56

57.

正味の効果の確実性（エビデンスの確実性）を推奨の強さに関係づける（EtD）エビデンスから推奨へのプロセスに関するEvidenceto-Decision(EtD)フレームワークには、利益と害のバランスやエビデンスの確実性以外に、コスト、費用対効果、公平性、許容可能性、実行可能性がある。ここでは、正味の効果推定値とその確実性に基づいて推奨を考えてみる。図の赤の所で考える。これまでのステップにおける判断から、パネルの決断は以下の可能性があると思われる（あくまでもパネルの判断ではあるので推察に過ぎず、どれが正解というものではない）。 ********************************************************************* 1. 点推定値は害の閾値を超えており、信頼区間は大きな利益と大きな害の閾値をまたいでいる。エビデンスの確実性は非常に低いものの、「Do no net harm」という原則から、「切除可能な口腔癌伸展例における術前化学療法（放射線療法併用）は推奨しない（GRADE 1D）」 2. 点推定値は小さな害の閾値に近いものの、推奨の方向性を決めることはできず、エビデンスの確実性を評価することはできないため、推奨は作成しない（no recommendation） ********************************************************************* ここまで、このようなAlperらの完全コンテキスト化アプローチ思考を行なうことで、上記のような推奨判断が、多くのパネリストに共有されるはずである（パネリスト全員が知って欲しい）。すなわち、これでパネリストが同じ土俵に乗ったという感じになると考えると、このアプローチの有用性が理解できるのではないか？ 57

58.

EBMの実践で･･･診療ガイドライン作成ならば、厳密に手順を踏む必要があるが、EBMの実践で利用する場合は、この程度で良いかもしれない（私案） • 不精確さ以外で、既にすべてのアウトカムがvery lowなら、ほぼ効果推定値の利用は諦める。 • 不精確さ以外で、very lowで無ければ、以下に進む。 • アウトカムの相対的価値を考える。もし必要ならば目の前の患者に直接、どれに重きをおくか聞いてみる。 • オンライン計算ツールで正味の効果を算出する。 http://net-effect.wisdmforafib.com/ https://www.cochranelibrary.com/cdsr/doi/10 .1002/14651858.CD013587.pub2/full • 価値を変えたり、選択するアウトカムを変更したりして、感度分析してみる。 • この信頼区間が、自分が考える利益と害の臨床判断の閾値を大きくまたぐならば、やはり効果推定値の利用は諦める。 • そうでないならば、そのエビデンスを利用して、患者への適応（EBMのステップ4）を考える。 58

GRADEガイドライン11：アウトカム全体のエビデンスの確実性について EBM中級編：Net effectより確実性3：全体の確実性11について

MXE05064

関連スライド

MCID（最小臨床重要差）20200906

ネットワークメタ分析の論文の図表の理解しよう第1弾：サルコペニアと運動のNMA

ネットワークメタ分析の論文の図表の理解しよう第2弾：2型糖尿病の薬物療法

「人年」という単位を勉強しよう

NMAの一般的な問題点の説明と総当たり数

Component network meta-analysis 公開版

各ページのテキスト

GRADEガイドライン11：アウトカム全体のエビデンスの確実性について EBM中級編：Net effectより確実性3：全体の確実性11について

MXE05064

関連スライド

MCID（最小臨床重要差）20200906

ネットワークメタ分析の論文の図表の理解しよう第1弾：サルコペニアと運動のNMA

ネットワークメタ分析の論文の図表の理解しよう第2弾 ：2型糖尿病の薬物療法

「人年」という単位を勉強しよう

NMAの一般的な問題点の説明と総当たり数

Component network meta-analysis 公開版

各ページのテキスト

ネットワークメタ分析の論文の図表の理解しよう第2弾：2型糖尿病の薬物療法