精神医学における臨床推論の方法-4　根拠に基づく医療は臨床手法を提供するのか？

第2章
精神医学における臨床推論の方法-4　要約
1. 要点まとめ

第2章

根拠に基づく医療は
臨床手法を提供するのか？

2.1 根拠に基づく医療を適切な臨床手法として評価する

本書における私の意図は、精神医学における臨床的推論と意思決定のための特定の方法論を主張することにある。なぜこれが重要な課題であるのかという理由のいくつかは、第1章で詳述した。この旅を始める前に、そもそも臨床手法に関する新たな理解が必要なのかという疑問を抱くかもしれない。近年、根拠に基づく医療（EBM）という概念、そしてその精緻化である根拠に基づく実践が、臨床医が最先端の個別化治療を実践するための基礎的な方法論を約束するものとして、かなりの prominence を得てきた。¹ 実際、この分野におけるその支配的な地位は、代替の枠組みが必要であると主張する前に、それがその約束をどれだけ果たしているかについて、広範な批判的検討を正当化する。ここでは、個々の患者を治療する精神科医のための臨床的推論と意思決定の方法論を提供する能力に特に焦点を当て、EBMに対する選択的な批判を行う。精神医学に適用される根拠に基づく医療のより広範な批判は、精神科医であり倫理学者であるモナ・グプタによる『Is Evidence-based Psychiatry Ethical?』に見出すことができる。²
科学哲学者であるロビン・ブルームとクリスティン・ボルガーソン²は、EBMの歴史と発展に関する思慮深いレビューの中で、その増大する野心の軌跡をたどっている。当初、EBMは、臨床医が圧倒的な量の出版された研究や報告の中から関連する臨床研究に効率的にアクセスするのを助ける手法として提案された。この努力の有用性に異議を唱えることは難しい。すべての臨床医は、特に多忙な臨床業務に従事している場合、この分野のすべての進展に追いつくことが文字通り不可能であることを知っている。教科書やその他の印刷物は急速に時代遅れになる。新しい情報は、真に管理不能な速度で流れ込んでいる。
時とともに、根拠に基づく医療は、合理的な情報検索と評価のための枠組みを提供する以上のことを目指すようになり、個々の患者の治療における臨床医の推論と意思決定を導くための包括的な実践の枠組みとして自らを提示した。1.1節で用いられた枠組みで言えば、EBMは、一般化された知識を習得するという第一のスキルセットに焦点を当てることから、個々の患者に関する臨床的決定を下すという第三のスキルセットのための最適な方法論を提供すると主張することへと移行した。この一歩により、根拠に基づく実践の妥当性という問題が浮上する。⁴ ブルームとボルガーソンは、EBMの成功と人気の高まりの一因は、その名前自体の修辞的価値にあると指摘している。⁵ 結局のところ、精神医学が医学の他の分野とともに科学的正当性と治療の経験的支持を求める時代において、自らを根拠に基づくと定義するものにどうして反対できようか？確かに、エビデンスの考慮に基づかない臨床判断や治療を主張したいと思う者は誰もいないだろう。
さらに、EBMの公言された使命を見ると、その意図に同意しないわけにはいかない。特に断りのない限り、EBM文献からの引用はすべて、サケットらによる非常に尊敬され古典的な代表的テキストである『Evidence-Based Medicine: How to Practice and Teach EBM』⁶、またはストラウスらによるその改訂第5版⁷からのものである。

根拠に基づく医療（EBM）とは、最良の研究エビデンスと臨床的専門技能、そして患者の価値観を統合することである。最良の研究エビデンスとは、臨床的に関連のある研究を意味し、それはしばしば医学の基礎科学から得られるが、特に、診断的検査（臨床診察を含む）の正確度と精度、予後マーカーの力、そして治療、リハビリテーション、予防レジメンの有効性と安全性に関する患者中心の臨床研究から得られるものを指す…臨床的専門技能とは、我々の臨床スキルと過去の経験を用いて、各患者の独自の健康状態と診断、潜在的介入の個々のリスクとベネフィット、そして彼らの個人的な価値観と期待を迅速に特定する能力を意味する…患者の価値観とは、各患者が臨床の場に持ち込む独自の好み、懸念、期待を意味し、それらが患者に役立つものであるためには、臨床的決定に統合されなければならない。⁸

一見したところ、この使命声明は患者の個別化されたニーズに十分な敬意を払っているように見えるだろう。しかし、問題はこれが実質的なものか、それとも修辞的なものかということである。それを知るためには、EBMの実際の実施ガイドラインを見なければならない。

2.2 エビデンスの階層

最初の考察として、個々の患者を治療する際に、何が妥当で関連性のあるエビデンスを構成するのだろうか？ EBMは、エビデンスには多くの形態があるが、臨床医が意思決定を行う際に指針とすべきエビデンスの質には明確な階層が存在すると主張する。⁹ 治療決定の領域において、この階層の頂点に立つのは、二重盲検ランダム化比較試験（RCT）である。¹⁰ その下には、他の種類の自然主義的研究や観察研究がある。¹¹ さらにその下には、症例報告シリーズがある。個々の実践的な臨床医の臨床経験は、このリストの最下位にある。RCTに置かれる価値と、他のあらゆる種類のエビデンスとの間の大きな隔たりは、文献からエビデンスを効率的に検索するためのアドバイスに反映されている。「もしその研究がランダム化されていなければ、読むのをやめて検索の次の論文に進むことを提案する…ランダム化試験が見つからない場合にのみ、観察研究の結論を探しなさい」。¹² したがって、1つのRCTが存在すれば、そのRCTと矛盾する可能性のある膨大な数の観察研究や症例報告でさえも検討が排除されることになる。一見すると、これらすべては非常に合理的で自明なことに見えるかもしれない。結局のところ、ランダム化臨床試験の要点は、特定の種類の潜在的なバイアスを制御し、重要な変数を分離することである。それがどうして最も重要なデータ形式でなく、最良の治療決定につながらないことがありえようか？しかし、RCTにはそれ自身のバイアスと限界がある。

2.3 何が臨床試験の対象となるかにおけるバイアス

既存のRCTから最も強力なエビデンスベースを持つ治療法は、最良の治療法であるという理由以外でその強力な基盤を持っている可能性がある。多くの関連する臨床的疑問は、RCTによって検証され、有用な情報をもたらす可能性がある。しかし、そのような試験を実施することは非常に費用と時間がかかる。時間と資金によって課される制約を考えると、ほとんどの関連する臨床的疑問は、ランダム化臨床試験の対象になることはないだろう。皮肉なことに、RCTによる厳密な検証にかけられたことのない重要な臨床的疑問の一つは、患者アウトカムを改善するための根拠に基づく医療アプローチ自体の有効性である。これは、EBMの提唱者たちがかなり軽率に退けている、彼ら自身の基準による深刻な欠落であると私は考える。¹³
では、どのような要因が臨床試験で扱われる疑問を決定するのだろうか？まず第一に、経済的な考慮事項である可能性が高い。試験を実施する団体に相当な金銭的利益をもたらす見込みのある臨床試験が追求される可能性が高い。これは間違いなく、製薬会社によって新薬やまだ特許保護下にある薬に対して行われる臨床試験の割合が高いことを説明している。¹⁴
経済的要因に加えて、研究対象の関連変数の標準化の容易さが、何が研究されるかを決定することが多い。高度に標準化できる治療法は、そうでない治療法よりもはるかに研究しやすい。例えば、心理療法試験の場合、認知行動療法（CBT）のようなモダリティは、構造化された治療マニュアルに適しており、同じ治療アプローチが、必ずしも良くではないにしても、すべての被験者に均一に適用されることを保証しやすくなる。一方、精神分析的および精神力動的アプローチから派生した心理療法は、標準化がはるかに困難であり、研究される可能性が低い。したがって、心理療法試験の場合、CBTがRCTから最良の支持を得ているという事実は、決してそれがすべての人にとって最良の治療法であることを示すものと解釈することはできない。エビデンスの状態は、この治療法が標準化しやすく研究しやすいため、他の心理療法的モダリティよりも臨床試験で利益を示しやすいということを反映している可能性が高い。
標準化の容易さは、治療試験で治療される状態にも適用される。したがって、双極II型障害よりも双極I型障害の治療を扱う臨床試験の方がはるかに多い。¹⁵ これは、双極II型障害が人口においてかなり一般的であるにもかかわらず、真実である。¹⁶ 決定的な要因は、双極I型障害が一貫して確実に診断しやすいのに対し、双極II型障害は他の気分障害へとよりスペクトラム的に薄れていくことである可能性が高い。¹⁷

2.4 個々の反応のばらつきと意図的な無知

精神医学の臨床試験では、様々な治療法間の集団全体の反応率の差は、通常、比較的小さく、かなりの割合の個人が反応しない。この状況では、EBMが答えようとする問い――他のすべての条件が同じであれば、特定のタイプの患者にどの治療が最も成功する可能性が高いか――は、最も重要な問いではないかもしれない。結局のところ、どの特定の患者にとっても、実際にはすべての条件が同じではない。治療法間の反応率の差がわずかで、すべての治療法に対する無反応率がかなり大きい場合、個々の患者を区別するこれらの他の要因は、しばしば、研究対象の治療モダリティの主効果よりも反応を予測することに多く貢献するかもしれない。ランダム化と十分な統計的検出力は、個々の差がグループレベルで主効果を体系的に歪めることを防ぐが、重要な問いは、臨床医が知っている要因が、特定の患者、例えばジョーンズさんを、ある治療法に他の治療法よりも反応しやすくするかどうかである。
本質的に、ここには混同されやすく、あたかも同じ問いであるかのように扱われがちな二つの異なる問いがある。第一の問いは、「定義された一連の特性、通常は共通の診断と一連の除外基準を共有する患者のグループが与えられた場合、このグループの最も高い割合に有益である可能性が高い治療は何か？」である。第二の問いは、「この診断を持ち、この一連の除外基準を満たすこの個人、ジョーンズさんにとって、最適な治療介入は何か？」である。これら二つの問いが同義であるのは、我々がジョーンズさんについて、彼女がこの診断を持ち、この一連の除外基準を満たすこと以外、他に何も知らない場合に限られる。もし我々が知っているのがそれだけなら、第一の問いへの答えは、第二の問いへの答えについての我々の最良の推測となるだろう。
臨床試験の方法論と、それらを分析するために使用される統計的手法の前提が、研究者に対して、被験者に関する、彼らを治療する臨床医には容易に利用可能であろう幅広い個別化された事実を積極的に無視することを要求するということは、よく知られているが、あまり認識されていない事実である。公平を期すために言えば、複雑なデータ量の多い計算を実行するコンピュータの力によって可能になった統計的手法の進歩により、研究者は主効果を超えて、ますます複雑な交互作用効果を特定できるようになっている。それによって、異なる治療反応を持つ可能性のある意味のある患者のサブグループを特定することができる。¹⁸ それにもかかわらず、これらの技術によって特定される可能性が高いのは、かなり多数のメンバーを持つサブグループを特徴付ける変数のみである。臨床試験は、ジョーンズさんが特定の治療に反応する可能性を教えてくれるのではなく、通常は非常に不自然な条件下で、純粋化された患者グループに対する介入の理想化されたテストを我々に与える。その価値は、もし治療がこれらの理想化された条件で失敗した場合、我々が理想的でない条件で利益を期待する理由はほとんどないということにある。¹⁹
研究試験における統計分析のこの側面と、それが統計学の歴史の中でどのように進化したかについての批判的かつ洞察に満ちた評価は、統計学者ハーバート・ワイズバーグによる、適切にも『Willful Ignorance: The Mismeasure of Uncertainty（意図的な無知：不確実性の誤測定）』と題された著作に見出すことができる。²⁰ ワイズバーグは、我々の現在の確率を定量化する技術が、17世紀にサイコロのような偶然性のゲームの数学的探求から発展したことを強調する。これらの非常に人工的で作り上げられた状況では、ゲームが公正であると仮定すれば、サイコロの特定の役割について知ることができるものが、ゲームの一般的なルール以外に何もないことを保証するためにあらゆる努力が払われる。採用されている統計的手法の背景にある仮定は、この広範な無知を前提としている。
確率の技術が他の現実世界の問題に適用され始めると、特定の個々の事例に関する広範な無知というそれらの仮定は残った。しかし、現実世界では、あるカテゴリーの事象のすべての事例が、互換性があるように、また同じルールによって生成されるように設計されているわけではない。人生はゲームではない。ワイズバーグの議論は、我々が現実世界の状況で持つ広範な特定の情報を、この種の状況のために実際には設計されていなかった統計的方法論を適用するためだけに無視することは、しばしば情報的に無駄であり、誤解を招くということである。彼はさらに、そして私は非常に正しいと思うが、臨床医に利用可能な個人に関する情報を無視するというこの選択は、医学研究において、臨床医に研究の現実の診療への関連性を疑問視させ、その結果、自分たちの知識と専門性が研究コミュニティによって軽視され、矮小化されていると感じさせる効果があると主張する。
現実の臨床状況では、我々がジョーンズさんについて他に関連する何も知らないということは、ほとんど決してない。我々は、ジョーンズさんの多くの個々の特徴を知っている可能性が高く、それらは彼女がある治療介入への反応に妥当に関連している。確かに、この追加的な知識のほとんどは、この個々の患者に非常に固有のものであり、したがって、RCTを含む研究からの情報によって直接支持されるものではない。しかし、これは、この個別化された情報に証拠としての価値がないことを意味するのだろうか？ワイズバーグは続けて、数学的確率の台頭と、それが偶然性のゲームを超えて現実世界の状況へと徐々に適用されるにつれて、確率という概念自体が徐々に変化し、狭まってきたと主張する。古い確率の概念は、ある事象の起こりやすさについて、賛成・反対のすべての関連要因を考慮した上での判断を含んでいた。これらの要因のほとんどは、容易に、あるいは意味のある形で正確な数値を割り当てることはできなかった。それにもかかわらず、合理的な人間が合理的な自信をもって評価を下すことができると想定されていた。この種の確率が今でも明示的に用いられている一つの場が、我々の法制度である。ここでは、我々は陪審員や裁判官に、利用可能なすべての情報を用いて、証拠の優越、相当な理由、あるいは合理的疑いを超えてといった言葉で、数学的確率統計に訴えることなく、有罪の確率を評価するよう求める。

2.5 実存的バイアスと外的妥当性

我々は今、EBMの使命声明における個別要因を考慮する必要性の安易な承認を超えて、これを実施する際に具体的にどのように進めるべきかを問う準備ができた。EBMの応用に関する主要なテキストを考慮すると、どのように進めるべきかに関する指示は、この種の個別化された情報は価値が非常に低いため、ほとんど無視できることを示唆しているように見える。
EBMを実践に適用するための高度に構造化された手順には5つのステップがあり、その最初のステップは「回答可能な問い」を立てることである。²¹ 提供された例に基づくと、治療選択の分野におけるこれらの問いは、通常、2.2.2.3節の最初の問いの形式をとる。すなわち、条件Xに苦しむ患者にとって、利用可能なエビデンスに基づいた最良の治療は何か、というものである。（時には、エビデンスによって、問いが相互作用の形式をとることも可能になる。すなわち、条件Xを持ち、かつ属性YとZも持つ患者にとって最良の治療は何か、というものである。それにもかかわらず、問いは依然として、やや狭められたものではあるが、患者のグループという観点から枠組みが作られている。）エビデンスをレビューし、グループレベルの問いに答えたら、一般的には、条件Xに苦しむ特定の患者にその治療を推奨することに進む。いくつかの例外は、医学的禁忌や問題の治療に対するアレルギー反応の既往歴といった明白な問題に関係する。患者の好みや価値観に関するより複雑な問題は、後のステップで考慮される。
しかし、臨床医が特定の患者について、提案された治療への反応の確率に影響を与えるであろう個別化された事実を知っている可能性については、事実上何の考慮もなされていないことに注意してほしい。しかし、精神医学において事実上すべての治療に反応しない患者の数が非常に多いことを考えると、²² これらの個別化された要因は、おそらく、検討されている様々な治療間のグループ反応の差の大きさよりも、アウトカムに絶大な影響を与える可能性が高い。そのような要因のうち、より一般的に共有されているものでさえも、有意な数で体系的に研究しようとすれば、 colossal なサンプルサイズと、 colossal な予算が必要となり、それらは単に利用可能ではない。さらに、多くは特定の患者に固有の相互作用する要因のパターンの一部であり、したがって、サドラーが「実存的バイアス」と名付けたように、どんなに詳細なグループレベルの分析でも対処できない。²³ したがって、臨床医は、公式な研究に頼ることなく、これらの要因をどのように重み付けするかを決定しなければならない。
この特異な要因の問題は、臨床試験データを個々の患者に適用する際の外的妥当性というより大きな問題と関連している。外的妥当性の概念は、臨床試験の患者グループから得られた結果が、その試験に参加していない個人に適用されると仮定することがどれほど妥当かという問いを指す。明らかに、外的妥当性の最も強いケースは、その個人が、適用される研究への参加基準を実際に満たしていたであろう状況で発生するだろう。最も大まかなレベルでは、患者が臨床試験の対象者グループと同じ診断を持っているかどうかという問いを立てることができる。この一見単純な問いは、精神医学における診断カテゴリーの恣意的で曖昧な性質によって、非常に複雑になっている。ほとんどの臨床試験は、特定の診断に対する治療をテストするために設計されている。したがって、EBMの強みは、我々の診断システムの妥当性に大きく依存している。これは巨大な一連の問題を提起する。精神医学における現在の診断システムであるDSM（精神疾患の診断・統計マニュアル）、現在第5版、については、継続的かつ広範な批判が存在する。²⁴ 1980年のDSM-IIIによるパラダイムシフトの出現以来、²⁵ 診断における重点は、疾患実体の明確な統一概念なしに、症状のクラスターに基づいて患者をグループ分けすることに置かれてきた。これは、精神医学における根底にある精神病理学的プロセスに関する知識の甚大な欠如、ならびに精神医学界内の競合する理論体系を部分的に反映している。DSMの公式な立場は、我々は現在の無知のレベルを考えると、これらの根底にある問題について現時点では決定できない、したがって、最良の戦略は、患者をグループ分けするための非理論的で純粋に経験的なアプローチを持つことである、というものである。しかし、結果として得られるシステムは、通常、症状のクラスターからなり、特定の患者が診断基準を満たすためにはそのうちのいくつかを持っていなければならない。しかし、複数の患者が、互いに全く似ていない症状のクラスターで診断基準を満たすことができる。これは、彼らが同じ状態にあるのかどうかという現実的な疑問を提起する。これらすべての結果として、条件Xの基準を満たすジョーンズさんが、条件Xに関する特定の臨床試験の患者に、その試験の結果が彼女に適用されると確信できるほど十分に似ているとは、決して自明ではないかもしれない。
近年のDSM版の、完全に非理論的なアプローチへの根底にあるコミットメントは、実際にはDSM自体の中で矛盾しているように見える。診断のかなりの割合で、問題の診断を適用するための基準の一つは、症状が「他の状態によってより良く説明されない」ことである。これは実に奇妙な基準である。臨床医は、診断システム自体の前提が、いかなる説明の根拠もないということであるのに、症状の代替的な説明メカニズムを考慮するよう求められている。ある状態に対する何らかの根底にあるメカニズムを仮定することなしに、代替的な説明仮説の中から選択することはできない。さらに、そのメカニズムは、何がその状態を引き起こすかについての何らかの理論的な概念に基づいている必要があるだろう。例えば、高い不安と被害妄想を示している患者について、その不安は、より根源的な基礎プロセスとして仮定される被害妄想によって説明可能だろうか？あるいは、全体的な不安の高いレベルが、二次的な現象としていくらかの被害妄想を引き起こしうる基礎プロセスとして仮定されるだろうか？これら二つの選択肢の間で決定するための非理論的な方法はないが、DSMは非理論的であることにコミットしていると同時に、DSM基準を適用する際に臨床医にこの判断を要求している。
しかし、外的妥तो性の問題はさらに進む。事実上すべての研究には、診断のための組み入れ基準に加えて、一連の除外基準がある。これらの基準は、対象となる診断を持つが、研究には不適切と見なされる研究参加者を除外する役割を果たす。除外基準は非常に多様でありうる。それらはしばしば、他の精神医学的併存疾患や、あるいは他の医学的併存疾患を持つ患者を除外する。物質乱用問題のある患者や、自殺傾向や暴力のために臨床試験への参加が危険すぎると見なされる患者を除外する場合もある。年齢制限や性別制限があるかもしれない。これらの除外基準の通常の論理的根拠は、現実世界の厄介な複雑さによって汚染されていない、条件Xを代表する合理的に純粋化された、あるいは理想化されたサンプルを生成することである。ほとんどの場合、臨床医は、特定の患者の治療に関する決定を下すために臨床試験データを使用しようとする際に、その患者がまさにその臨床試験から除外されていただろうという、落ち着かないジレンマを抱えることになる。そのような試験の結果をジョーンズさんに適用することは、どれほど合理的だろうか？ EBMの応用に関する標準的な教科書の一つで、一般的にこれらの除外基準、そして治療されている患者が研究の資格を満たさなかったであろうという事実は、一般的に重要ではなく、その懸念は退けられることができるという声明がなされていることは、非常に印象的である。²⁶ 皮肉なことに、この壮大な却下は、いかなる証拠的支持も提供することなく行われている。さらに、この問題は無視できるという仮定は、非常に直感に反する。結局のところ、除外基準は理由があってそこにあるのであり、したがって、それらは何らかの重要な形で重要であるか、少なくとも試験を実施した人々によって重要だと考えられていたはずである。この軽率な却下は、この点での譲歩が、個々の患者を治療するための指針としてのEBMアジェンダの有効性の前提を深く弱めることになるという事実を反映しているのかもしれない。

2.6 疑似定量化の誘惑

外的妥当性に関するもう一つの一連の問題は、問題となっている状態の重症度を取り巻くものである。精神医学における状態は、医学の他の分野と同様に、通常、異なる患者において同じ状態が様々な重症度で発生する。多くの場合、重症度のレベルは、特定の患者にとって最も適切で効果的な治療を決定する上で非常に重要である。臨床試験に参加する個人の重症度が時間とともに変化することも、研究の成果に大きな影響を与える可能性が高い。したがって、近年の精神医学における薬剤試験でプラセボ反応率が増加しているのは、これらの試験に軽症の個人がより多く含まれるようになったことを反映している可能性がある。その結果、実薬治療とプラセボとの間に差を生み出すことがますます困難になっている。²⁷ したがって、外的妥当性に関連する重要な要因は、ジョーンズさんの状態の重症度が、検討されている臨床試験の患者グループの重症度と比較可能であるかどうかということである。EBMの支持者たちは、標準化された評価尺度という形でこの問いに即座に答えを提供し、臨床試験の被験者とジョーンズさん自身の両方にそのような尺度を適用することで、比較重症度の明確かつ正確な決定が可能になると主張する。
一見すると、これはその問いに対する非常に賢明な答えのように思える。しかし、精神医学における我々の臨床試験データの価値の多くを損なう恐れのある疑問が生じる。すなわち、評価尺度は一般に、疾患の重症度の意味のある定量化を表しているのか、それともむしろ疑似定量化を構成しているのか、という疑問である。何かを記述する際に数字を適用することは、絶大な心理的力を与える。それは即座に高いレベルの精度、正確さ、客観性を示唆し、問題の現象についての我々の理解を高めると考えられているデータ分析戦略の適用の可能性を提供する。しかし、この約束がどの場合においても果たされるかどうかは、定量化プロセス自体の妥当性にかかっている。数字は、問題の現象を何らかの意味のある形で測定しているのだろうか？医学の多くの側面では、これは評価するのが簡単な問題である。患者の血圧を記録するとき、我々は何を測定しているかを正確に知っている。それらの測定値の重要性について解釈の余地はあるかもしれないが、我々が測定しているものの意味は明確である。もし収縮期血圧が120mmHgであれば、我々はそれが何を意味するかを正確に知っている。また、収縮期血圧80mmHgが120mmHgの測定値より3分の1低いことも知っている。同じことは、血液サンプル中の様々な物質の濃度を測定する場合、心エコーで心拍出量を測定する場合、その他多くの医療検査においても真実である。
しかし、精神医学の試験における特定の症状評価尺度上の数字は何を意味するのだろうか？率直に言って、それを知ることは困難である。我々は、異なる評価者が特定の器具を高い信頼性で用いるように訓練されていること、すなわち、特定の患者の特定の症状の重症度の数値評価を割り当てる際に彼らが一致する傾向があることを示すことができる。しかし、その評価の妥当性はどうだろうか。もし患者が、例えば、特定の評価尺度で評価6から評価4に移行した場合、症状の重症度は3分の1減少したのだろうか？もし患者が評価4から評価2に移行した場合、それは6から4への移行と同じ大きさの変化なのだろうか？真実は、我々は一般に全く見当もつかないということである。しかし、これらの数値データポイントは、あたかも血圧やナトリウム濃度のような明確で客観的な測定値であるかのように、統計分析にかけられ、治療の有効性に関する決定の基礎を形成する。
これに加えて、どの測定値が問題の疾患の重症度を最も意味のある形で反映しているかという一連の問題全体がある。もし10項目のうつ病評価尺度を用いている場合、それらの項目すべてが、うつ病の全体的な重症度を決定する上で等しい重みと重要性を持つだろうか？もしある治療が項目4、7、9を減少させる傾向があり、別の治療が項目2、8、13を同じ大きさで減少させる傾向がある場合、どちらがうつ病という状態を治療する上で、そしてどの患者にとってより重要だろうか？さらに、評価尺度は時間とともに、既存の治療法が最も影響を及ぼすことが知られているまさにその側面を測定するように進化するかもしれない。長年の懸念は、最も人気のあるうつ病評価尺度の一つであるハミルトンうつ病評価尺度²⁸が、既存の抗うつ薬に反応することが知られている症状を過度に強調する一方で、ベックうつ病調査票²⁹は、彼のCBTが扱ううつ病の認知的側面に焦点を当てており、両方とも、うつ病症候群全体におけるそれらの重要性に不釣り合いな方法で行われているということである。³⁰

2.7 個々の患者へのEBMの適用：ステップ・バイ・ステップ

前述のEBMの限界の累積的な影響を考えると、このアプローチは特定の患者を治療する臨床医による意思決定にとって、どれほど有用だろうか。要するに、代替の臨床意思決定方法論が必要なのだろうか？そのような方法を提示する前に、個々の患者との意思決定のためにEBMが提案するステップを順に見ていこう。EBMの「本格的な実践」として記述されているものは、5つのステップで構成されている。³¹ 最初のステップは、「情報へのニーズ（予防、診断、予後、治療、原因などについて）を回答可能な問いに変換すること」を含む。第二のステップは、「その問いに答えるための最良のエビデンスを突き止めること」である。第三のステップは、「そのエビデンスを、その妥当性（真実に近いか）、インパクト（効果の大きさ）、および適用可能性（我々の臨床実践における有用性）について批判的に吟味すること」に関する。ステップ4は、「批判的吟味を、我々の臨床的専門技能、および我々の患者の独自の生物学、価値観、状況と統合すること」である。最後に、ステップ5は、「ステップ1-4を実行する上での我々の有効性と効率性を評価し、次回のために両方を改善する方法を模索すること」を含む。各ステップに関して、いくつかの所見を述べる。

2.7.1 ステップ1：回答可能な問いの定式化

最初のステップである、回答可能な問いの定式化については、すでに2.2.2.3節で議論した。述べたように、実践的な臨床医の自然で関連性のある問い、すなわち、この特定の患者ジョーンズさんを評価し治療する上で最善の進め方は何か、という問いは、ジョーンズさんが適切に含まれうる何らかの患者グループに関する問いへと変換されなければならない。これらの「回答可能な」問いへの答えは、ジョーンズさんに関する臨床医の根本的な問いに答える上で、どれほど最適な指針を提供するだろうか？我々が見てきたように、この点については疑わしい理由が複数ある。これに加えて、課題は、回答可能な問いの一般的な性質から、個々の患者の個別化された理解へとどのように取り組むかである。EBMは、第四のステップでこの問題に取り組むことを約束している。

2.7.2 ステップ2および3：関連エビデンスの発見と吟味

第二のステップは、提起された問いに答えるための最良のエビデンスを突き止める戦略に関する。これはもちろんEBMの当初の使命であり、増え続ける膨大な情報に直面する多忙な臨床医にとって、極めて重要なニーズに応えるものである。当初の構想通り、ステップ2はステップ3と密接に関連しており、ステップ3は、臨床医が自分の問いに関連するあらゆる試験の方法論的妥当性を評価できることの極めて重要な必要性を強調する。EBMは確かに、臨床医が研究デザインと実施（統計分析を含む）を批判的に評価する能力を養う上で、一般的に準備が不十分であることを浮き彫りにする。EBMの根底にある前提の一つは、臨床医は専門家の判断を鵜呑みにするのではなく、エビデンスがどれほど優れているかを問うべきだということである。EBMが人気を博すにつれて、このステップは専門家の役割に関してかなりの皮肉を導入した。一連の要約リソースが、印刷物でも、しかし主にオンラインで登場し、そこでは「専門家」のグループが関連文献を検索し、研究の長所と短所を含む研究の簡潔な要約を提供する。³² EBMの広報担当者たちは、多忙な臨床医が関連情報を得るための非常に時間効率の良い方法として、これらの情報源の使用を強く奨励している。今や臨床医は、情報の質を自ら評価する代わりに、再び何らかの専門家グループがそれらの判断を下すことを信頼しているのである。皮肉なことに、第三のステップは本質的に委任されている。

臨床的決定のための事前吟味済みエビデンスリソースは、その科学的メリット（「エビデンスの階層」）と臨床的決定での使用準備の両方に応じて研究を評価する明確なプロセスに従って構築されている…そこで欲しいものが見つからない場合にのみ、MEDLINEのようなより大きな書誌データベースを検索し、本書で教えられている批判的スキルを適用するという、より困難な課題に取り組む必要があるだろう。³³

2.7.3 ステップ4：エビデンスと患者の独自の生物学、価値観、状況の統合

第四のステップは、我々の懸念にとって特に重要なものである。このステップは、研究からの結果がジョーンズさんの治療にどれほど適用可能で関連性があるかを決定するために、我々の臨床的専門技能と、患者の独自の生物学、価値観、状況に関する我々の知識を使用する際に我々を導くことを約束している。ステップ1が回答可能な問いを定義する方法は、我々を個々の患者から患者のグループの考察へと遠ざける。もしEBMが実践者のための枠組みおよび包括的な臨床方法論として機能するのであれば、ステップ4は我々をその個々の患者へと導き返さなければならない。これを行う方法に関するステップ4で提供される指針は、明確で、包括的で、合理的でなければならない。EBMはこの問題に4つの問いを立てて取り組む。

2.7.3.1 研究結果はこの患者に適用できるか？

最初の問いは、我々の患者が研究の参加者とあまりに異なるため、その結果が彼女に適用できないかどうかである。この問題の重要性を考えると、EBMの答えはかなりの長さで引用される：

一つのアプローチは、我々の患者が研究のすべての組み入れ基準を満たすことを要求し、もし我々の患者がその一つ一つを満たさなければ、その有用性を拒否することだろう。これはあまり賢明なアプローチではない。なぜなら、我々の患者と試験参加者との間のほとんどの違いは、質的（反応性が全くない、あるいはイベントのリスクがない）というよりは、量的（年齢や社会階級、アウトカムイベントのリスクの程度や治療への反応性が異なる）な傾向があるからだ。我々が提案するのは、はるかに適切なアプローチとして、我々の患者の社会人口統計学的特徴や病態生物学が研究のそれとあまりに異なり、その結果が我々と我々の患者にとって無用であるかどうかを検討し、その場合にのみその結果を破棄し、関連するエビデンスの探索を再開することである。これが当てはまるのは、異なる薬理遺伝学、免疫応答の欠如、治療を禁じる併存疾患など、ごくわずかな場合に限られる。この臨床的（保険数理的とは対照的な）アプローチの結果として、この理由で研究を捨てなければならないことは稀である…時として、治療は患者の反応サブグループにおいて質的な違いを生み出すように見え、一部のサブグループには利益をもたらすが、他のサブグループにはもたらさないように見えることがある。このような反応における質的な違いは極めて稀である…その反応の違いが生物学的に理にかなっており、試験前に仮説が立てられ、そして第二の独立した試験で確認されない限り、我々は、治療の全体的な有効性を、あなたの個々の患者におけるその有効性を推定するための最良の出発点として受け入れることを提案するだろう。³⁴

この議論のいくつかの側面は問題がある。臨床試験から除外された個人が、試験に含まれた人々と同様に反応するというエビデンスは何か？我々の患者であるジョーンズさんが、検討中の研究のすべての組み入れ基準を満たさないかもしれないという懸念を安易に退けることは、正当化されず、見た目の妥当性を欠いているように思われる。一部の組み入れ基準は、研究を実施する上での現実的な問題や研究者の便宜に関係することがあるが、一般に組み入れ基準は、研究者がそれらが研究されている問いに臨床的に関連していると感じているからこそ選択されるのであり、つまり、その有無が研究の結果に実際に違いをもたらす可能性が高いと考えられているからである。したがって、それらがある特定のケースで重要でないと言うことの責任は、それらを退けたいと思う人にあり、なぜ特定の基準が無視できるのかについて、何らかの合理的な議論がなされる必要がある。
ここでのEBMの議論は、これらの違いは一般に量的な違いであるため、重要でない可能性が高いと述べている。なぜこれがそれらを重要でなくするのかは不明である。十分な大きさの量的な違いは、大きな違いを生む可能性がある。さもなければ、この論法によれば、老年患者での試験結果を2歳児の治療に適用することが適切ということになるだろう。結局のところ、彼らの年齢は単に量的な違いを表しているに過ぎない。特定の治療に対する異なるサブグループの患者による反応の質的な違いは非常に稀であるというさらなる議論は、少なくとも精神医学の場合には、明らかに真実ではないように思われる。
最後に、EBMは、質的な違いが生物学的に理にかなっており、試験前に仮説が立てられ、第二の独立した試験で確認された場合にのみ、真剣に受け止めるべきであると述べている。これは、元の試験自体を真剣に受け止めるために適用されるよりも高いエビデンス基準を、これらの反応における質的な違いに適用している。これらの議論の信憑性の低さを考えると、EBMの提唱者たちは、我々の患者が資格を得られなかったであろう試験がその患者の治療に適用できないかもしれないという見解を拒絶せざるを得ないと感じているのだろうか、という疑問が湧く。なぜなら、そうすることは、臨床実践へのEBMの適用可能性を大いに弱めることになるからである。結局のところ、臨床医が診療で見る患者のかなりの割合、おそらく大多数は、何らかの理由で、彼らの状態について実施されたほとんどの臨床試験の資格を得られないだろう。

2.7.3.2 この患者にとってその介入は実行可能か？

EBMがステップ4に取り組むために尋ねる第二の問いは、検討中の治療が、臨床医と患者が活動する治療環境において実行可能かどうかである。これは、率直で、議論の余地のない、実践的な点である。治療がその環境で利用できないか、手頃な価格でないか、あるいは有能に提供できない場合、患者にその治療を提供することはできない。

2.7.3.3 この患者にとっての利益と害の評価

ステップ4に取り組むために用いられる第三の問いは、検討中の治療法から個々の患者が受ける可能性のある利益と害について尋ねることである。これは合理的な問いだが、どうすればそれに答えられるだろうか？ EBMは2つのアプローチを提案している。一つは、より厳密であるが、より時間がかかり、通常は特定の種類の研究結果がないと実行不可能な長い方法、そしてもう一つは、実際の診療でより一般的なアプローチとして提示される短い方法である。³⁵ EBMがほとんどの場合これらの条件が適用されないことを容易に認めているので、長い方法の詳細を見るのは省略する。通常、第二の方法が、個々の患者の治療からの利益または害の可能性を推定するために使用される。それは、我々の患者の利益または害のリスクを、平均的な対照群患者のそれと比較して推定し、fと呼ばれる小数で表現することからなる。これは次に、研究の患者に発生した利益または害の全体的な可能性に乗じられる。

例えば、我々の患者が（未治療の場合）試験の対照群の患者と比較してアウトカムのリスクが2倍であると考えるなら、f=2となる。あるいは、我々の患者のリスクがその半分しかないと考えるなら、f=0.5となる。我々はfの値を導き出すために、過去の臨床経験と専門技能を用いることもできるし、［長い方法で］記述された情報源のいずれかを用いることもできる。³⁶

著者たちはすでに、長い計算に必要な情報が通常は利用できないことを認めているため、ここで言われているのは、臨床医が変数fの値を導き出すために、彼らの臨床経験と専門技能を用いるべきだということだけである。しかし、これはもちろん、その判断がすでにエビデンスの階層の最下位に置かれている臨床医に対して、何の指針も提供していない。実際には、臨床医が臨床試験からジョーンズさんのための治療決定へと立ち返るための方法論は提供されていない。この立場の空虚さは、疑似定量化の特に明白な例の背後に薄く隠されている。疑似定量化とは、2倍、3倍、半分といった数値を割り当てることで、このプロセスに何らかの真の精度や方法論的厳密さの体裁をもたらそうとすることである。明らかに、それはそうではない。EBMは、ジョーンズさんの治療に関する臨床医の特定の問いを、ジョーンズさんに似た患者のグループにおける相対的な反応率に関する一般的な問いに変換することから始まる。包括的な臨床方法論であろうとするその努力の中で、これをジョーンズさんの治療に持ち帰る必要性を認識している。個別化された臨床応用は、結局のところステップ4の目標である。残念ながら、ステップ4は最終的に、臨床医に対して、何らかの形で、何らかの不特定の、しかしそれでも特定の数値をもたらす方法で、ジョーンズさんの個別化された治療へと立ち返る必要があると訓戒する以外に、何も成し遂げていない！

2.7.3.4 患者の価値観と期待の統合

EBMが臨床試験の結果を個々の患者に適用する際に用いる第四かつ最後の問いは、我々が予防しようとしているアウトカムと、我々が提供している治療の両方に対する、我々の患者の価値観と期待について尋ねることである。この問いは、患者の価値観と好みを考慮し、それらを治療勧告に組み込むことを目的としている。この目標は賞賛に値するが、ここでも提案されている方法は、疑似定量化によって特徴づけられる奇妙なものである。患者の価値観と好みという言葉で、議論が、患者が潜在的な有害な結果をどれだけ恐れるか、そして期待される肯定的な結果をどれだけ高く評価するかに限定されていることは注目に値する。これは確かに、患者が治療選択肢を検討する際に重要となる、他の価値を帯びた広範な問題を考慮に入れていない。例えば、精神科の患者は、心理療法的治療と薬理学的治療の間でしばしば強い好みを持つ。自尊心、尊厳、スティグマ、肯定的および否定的な過去の治療経験、そして自分自身の状態の性質についての自己の理論化に関する他の種類の複雑な患者の価値観は、実際には考慮されていない。これらはすべて、患者にとってしばしば非常に重要であり、³⁷ それは精神科疾患の治療においては特に真実である。³⁸
しかし、提案されている方法は、単に患者に、提案された治療の起こりうる有害な影響と、疾患を治療しないことの悪影響をどれだけ悪く見るかを、ゼロから1までの間の数値で、実際には小数点以下2桁まで定量化するように求めるだけである。これらの「重症度因子」（s）は、その後、この患者にとっての有害事象の確率または問題の治療を用いないことの結果の確率に乗じられる。通常は臨床試験での発生率――それぞれ、害をもたらすのに必要な数（NNH）または治療するのに必要な数（NNT）³⁹――と、この患者のf因子に基づいている。これは、「助けられる可能性と害される可能性の比」またはLHHを生成する。この数字はその後、患者が治療を受け入れるか拒否するかを明確にするだろうという信念のもとに、患者に提示される。多発性硬化症の患者がインターフェロン治療を開始するかどうかを決定する例として、「このLHHは患者に提示され、彼がそれを、一日おきにインターフェロンを自己注射しなければならない痛みと面倒を相殺するのに十分に好ましいと判断できるかどうかを決めることができる」。⁴⁰
複雑で困難なケアの決定に直面している多くの患者が、この計算と結果として得られる数値を大いに助けになるとは、私には想像しがたい。ましてや、異なる文化的背景、限られた教育、知的障害、うつ病、不安、または精神病を持つ人ならなおさらである。さらに、重点は、正確な定量的意味を持たない数値を生成することに置かれている。代わりに、深刻な病気に直面した際に患者が自分の価値観と好みを整理するのを助けるという困難な課題において、臨床医のための具体的な指針が必要である。EBMはここに重要な問題があるかもしれないことを認めているが、提供できるものはほとんどない。

我々と我々の患者が尋ねる問いは、しばしば、彼らの検査結果や健康アウトカムではなく、病気、診断的検査、治療の経験に関するものである。これらの問題を探求する研究は、患者に尋ねるか、あるいは彼らの病気、検査、治療の経験を観察することによって行われ、「質的研究」と呼ばれる。我々は質的研究の統合をEBMの現在の主要な課題の一つと見なしているが、我々がこの分野の専門家ではないことを容易に認め、他者に委ねる。⁴¹
2.8 もしEBMが臨床的推論の方法として不十分なら、代替案は何か？

EBMのこの考察を踏まえて、一般的な医学、特に精神医学における臨床的推論と意思決定の方法論としてのその妥当性についての合理的な評決は何だろうか？私は以下の結論が正当化されると信じる：

EBMの当初の使命には真の価値がある。すなわち、多忙な臨床医が関連する臨床研究にアクセスするのを助け、それらの研究――その長所と短所――の批判的吟味を支援することである。
RCTと患者グループの研究から得られたデータの価値を強調する一方で、個々の患者に対する臨床医の理解を評価することを犠牲にすることで、EBMは臨床医の仕事の重要な側面を中傷するリスクを伴う。
EBMは臨床試験からのエビデンスを個々の患者への意味のある適用に持ち帰る方法論を提供すると主張するが、この方法は非常に空虚であり、疑似定量化によって偽装されていることが判明する。⁴²

要するに、EBMは、個々の患者を治療する際の決定を下す上で、精神科の臨床医を導くための適切な方法論を提供しない。何か他のものが必要である。
この目的を達成するために、我々は完全に新しい方法論を生成する必要はないかもしれない。結局のところ、我々精神科医は長年にわたり個々の患者を評価し、治療してきた。我々が患者と行うことは、しばしば理にかなっており、合理的であるが、そのプロセスは一般に十分に明確に表現されておらず、当然のこととされている。私が以下の章で展開する主張は、優れた精神科診療の基礎となっているものは、個々の患者を治療するための定義可能で合理的な方法論であることが判明するというものである。専門知識とエビデンスに基づいており、科学的方法とは何かについての我々の現在の最良の理解に従って、完全に科学的である。このプロセスを明確に表現することによって、我々は我々の臨床業務の正当性を再確認でき、我々の方法のより批判的な評価を可能にし、改良と改善を奨励し、この分野に参入する新しい実践者へのこの方法の教育を大いに助け、このプロセスで我々が生み出す患者に関する知識に信頼性を提供することができる。
この方法論の理解と評価を深める最良の方法は、まずいくつかの個々の患者でそれが機能していることを示すことだと思う。4つの症例の現象学的探求が、第3章から第6章で詳細に提示される。⁴³ 各症例は、まず、患者が助けを求める問題、精神科医による治療決定、および症例の基本的な結果を特徴づける簡単な記述的な言葉で議論される。我々は、その症例でEBMの原則が臨床医にとってどれほど役立ったかを検討する。その後、私は各症例で用いられた臨床的推論を明確にし、精神医学における臨床的推論の基本的な方法論を説明する。これにより、我々は第7章で、経験豊富な精神科医が実際に患者と協力する際に行っていることを捉える、精神医学における臨床的推論と意思決定の方法の詳細な一般的な特徴づけを提供することができる。これら4つの症例はすべて私が治療したものであり、個人の身元を隠すために十分な詳細が変更されており、特に断りのない限り、各症例で言及されている精神科医は私である。症例は複雑さが様々であるが、開業の精神科医が見るような患者の典型である。私は症例に関する私の推論が特にユニークまたは特異であるとは考えていない。なぜなら、その推論はほとんどの精神科医が患者を治療する際に用いるであろうものの特徴であると信じているからである。したがって、私は精神医学における典型的な臨床的思考の代表として、私の思考を詳述している。後でより詳しく説明するように、これはすべての精神科医が特定の患者について同じ結論に至ることを意味するものではない。また、治療の時点ですべての臨床的推論が、事後の議論が示唆するほど意識的に私の心の中で明確に表現されていたと主張しているわけでもない。実際、この種の方法論を開発する目標の一つは、治療決定を洗練し改善するために、治療の時点で自分の推論をより完全に明確に表現するよう精神科医を奨励することである。
もちろん、自分の思考プロセスの遡及的な意識的再構成という戦略は、絶対確実ではないが、様々な分野における人間の意思決定と専門知識開発の質的研究において、妥当で有用な結果をもたらすことが示されている。⁴⁴ そのような再構成のより詳細な考察は、7.2節および8.13-16節で検討される。

精神医学における臨床推論の方法-4　要約

第2章：根拠に基づく医療は臨床手法を提供するのか？

2.1 根拠に基づく医療（EBM）の評価

著者は、精神科臨床における推論と意思決定の方法論を検討するにあたり、まずEBMの妥当性と限界を批判的に考察する。
EBMは当初、臨床医が膨大な情報から適切な知見を得るための手段として登場したが、次第に患者ごとの治療意思決定を導く包括的枠組みとして主張されるようになった。その影響力の大きさから、まずはその理論と実践が実際にどこまで機能しているのかを吟味する必要がある。

2.2 エビデンスの階層構造

EBMでは、エビデンスの質に明確な「階層」を設け、最上位には**ランダム化比較試験（RCT）**が位置づけられる。個別の臨床経験や症例報告は最下位とされ、RCTが1つあれば、それと矛盾する観察研究は無視される傾向にある。しかしこの階層には問題がある。RCTもまた特有のバイアスを持ち、必ずしも現場の臨床に最適な意思決定を導くとは限らない。

2.3 臨床試験の「対象の偏り」

RCTが行われるのは、費用対効果や資金的な都合により、ごく限られたテーマに偏る。したがって、「RCTでよく研究されている治療法」が「最も効果的な治療法」であるとは限らない。さらに皮肉なことに、「EBM自体が患者のアウトカム改善に寄与するかどうか」は、RCTによって十分に検証されていない。

要点まとめ

EBMは情報整理に有用だが、個別患者への臨床推論には限界がある。
「エビデンスの階層」にはRCT優位のバイアスが存在し、臨床経験などが軽視されがち。
RCTが可能なテーマに偏りがあるため、EBMが提供する知見には構造的な限界がある。
精神科臨床に適した推論法の再考が求められている。

第2章