RCTのエビデンスが高くても、観察研究のほうが臨床判断に役立つことが実際にあります。
アウトカム研究とは、治療や医療介入が患者の健康状態・QOL・生存率などにどう影響するかを評価する研究です 。その評価の中核にあるのが「エビデンスレベル」ですが、これを研究デザインだけで決める時代はすでに終わっています。
従来型のヒエラルキー(メタアナリシス→RCT→コホート研究→…)は、研究設計の強さを示す目安に過ぎません。現在の国際標準であるGRADEアプローチでは、まずRCTを「高(A)」、観察研究を「低」として出発しますが、そこから5つの要因でグレードを下げ、3つの要因で上げることができます 。つまり、最終的なエビデンスの確実性は「アウトカムごとに」判断されるものです 。
関連)https://www.jspm.ne.jp/files/specialistCertification/seminar/manual_4_2017.pdf
研究デザインだけが基準ではありません。
たとえば、CKD-MBD領域では血清リン値と死亡リスクの関連について観察研究の知見が先行しており、それを覆すRCTのエビデンスがないまま診療が行われている場合があります 。RCTがないことは「有益でない」証明ではなく、あくまで「確かなエビデンスがない」ことを意味するに過ぎない点を、医療従事者は明確に区別する必要があります 。
関連)https://www.touseki-ikai.or.jp/htm/05_publish/dld_doc_public/34-3/34-3_509.pdf
| エビデンスレベル | GRADEの解釈 | 研究例 |
|---|---|---|
| 高(A) | さらなる研究があっても確信は変わらない | 質の高いRCTのメタアナリシス |
| 中(B) | さらなる研究で確信が変わる可能性がある | 一貫性に乏しいRCTのメタアナリシス |
| 低(C) | さらなる研究で確信が変わる可能性が高い | 質の低いRCT1報、バイアス未調整のNRS |
| 非常に低(D) | 効果推定値が非常に不確か | 専門家意見・症例報告 |
GRADEアプローチでは、エビデンスの確実性を下げる方向に働く要因が5つ定義されています 。これらは「アウトカムごと」に評価されるため、同じ研究でもアウトカムによって評価が変わります。重要なポイントです。
関連)http://aihara-hp.la.coocan.jp/grade-com/grade/GRADEproHelp/Study%20limitations.htm
関連)http://aihara-hp.la.coocan.jp/grade-com/grade/GRADEproHelp/Study%20limitations.htm
関連)http://www.jsco-cpg.jp/liver-cancer/evidence2/
関連)https://info.zanet.biz/?p=1482
実際の評価現場では、このリストを意識しながら論文を読む習慣が求められます。厳しいところですね。
各要因は「深刻(1段階ダウン)」「非常に深刻(2段階ダウン)」で評価し、アウトカムごとに最終的なエビデンスの確実性を決定します 。
関連)http://aihara-hp.la.coocan.jp/grade-com/grade/GRADEproHelp/Study%20limitations.htm
観察研究は出発点がエビデンスレベル「低」とされるため、多くの医療従事者は「観察研究はRCTより弱い」と思い込んでいます。ただしこれは正確ではありません。GRADEアプローチでは観察研究のエビデンスレベルを「上げる」ための3つの要因も明示されています 。
関連)https://www.jpn-geriat-soc.or.jp/proposal/pdf/CGA-GL_evidence.pdf
これはつまり、「RCT的に高エビデンス」ではなくても、現実の患者データから得られた大規模な観察研究が、臨床ガイドラインで重要な根拠になり得るということです。つまり判断力が条件です。
CKD・敗血症・がん領域のガイドライン改訂ではこの考え方が積極的に取り入れられており、RCTと観察研究を組み合わせて推奨を構築するアプローチが国際的に広まっています 。
関連)https://www.jseptic.com/shoreiq/quiz34.pdf
「システマティックレビュー(SR)は最もエビデンスレベルが高い」というのは、医療従事者の間でよく見られる誤解です。意外ですね。
SRやメタアナリシスはエビデンスの統合ツールに過ぎず、中に含まれる個々の研究の質が低ければ、SRそのものの確実性も低くなります 。SRを「高品質に作成した」こと自体は、内部のエビデンスの確実性とは別の問題です 。
関連)https://www.jseptic.com/shoreiq/quiz34.pdf
📌 具体的には、以下のような状況でSRのエビデンスレベルは下がります。
このことが理解できると、論文検索で「SRがある=信頼できる」という短絡的な読み方から脱却できます。これが基本です。
診療ガイドライン作成では、SRを「土台」として各アウトカムのエビデンスの確実性をGRADEで評価し直すプロセスが組み込まれています 。SRの存在とその内容の確実性評価は、別のステップとして分けて考えることが重要です。
関連)https://minds.jcqhc.or.jp/docs/methods/cpg-development/minds-manual/pdf/all_manual_.pdf
臨床現場で実際に役立てるためには、「エビデンスの確実性」と「推奨の強さ」を混同しないことが最も重要な第一歩です 。エビデンスが低くても「強い推奨」になることがある一方、エビデンスが高くても「弱い推奨」に留まる場合があります。これが原則です。
関連)https://www.neurology-jp.org/guidelinem/pdgl/parkinson_2018_21.pdf
推奨の強さには「望ましい効果と望ましくない効果のバランス」「患者の価値観と意向」「コストと経済的側面」など、エビデンス以外の要素が加わります 。つまりエビデンスレベルは意思決定の一要素であり、それだけで臨床判断が決まるわけではありません。
関連)https://www.neurology-jp.org/guidelinem/pdgl/parkinson_2018_21.pdf
実践で意識したい3点を以下に整理します。
| 確認ポイント | 具体的な行動 |
|---|---|
| アウトカムは何か | 患者に重要な転帰(死亡・QOL)を中心に評価しているか確認する |
| 研究デザインとバイアスの有無 | RCTでもブラインド化や割り付け隠蔽の記述を確認する |
| GRADEのグレードと推奨の強さ | 診療ガイドラインの推奨文でA・B・C・Dの意味を読み解く |
「エビデンスが低い=推奨しない」ではないということですね。
【Mindsガイドラインライブラリ】エビデンス総体の確実性とは(PDF)|アウトカムごとのGRADE評価の実例を確認できます
【GRADEガイドライン解説】GRADEシステムとガイドライン手順|エビデンスレベルの上げ下げの判定基準を詳しく解説