Vol.19:統計的有意性と臨床的意義をつなぐためのパラダイム・シフト

エビデンス・ベースの医療において、統計情報は診察結果の解釈や治療方針の決定を行う上で欠かせないものです。しかし、臨床試験データの分析法として広く採用されている、p値に基づく意思決定に過度に依存しすぎることへの反対意見が徐々に強まっています。

一流誌に掲載された複数の論文でも、当然のように受け入れられている「統計的有意性」に疑問が提示されています。

p値に関する論争

統計学におけるp値は確定的な検定としてではなく、実験を繰り返して真となる結果から得られたときのエビデンスの確率を判断するツールとして導入されました。簡単に言えば、p値は0から1の範囲の数値で、その値が低いほど、結果が偶然引き起こされた可能性が低くなります。

従来から、p＜0.05という棄却域は信頼性を見極めるものとされており、そのことから、論文が出版に値するかどうかの判断基準となってきました。とは言え、この棄却域はあくまで確率を示すもので、p値は本来、より実用的なツールであり、背景情報と組み合わせることで科学的理解を深められる可能性を持っています。

実際、ギャローデット大学のレジーナ・ヌッツォ（Regina Nuzzo）教授は受賞論文*1の中で、「0.05という魔法の数字は、追加のデータを加えると、それまで有意だったものが有意でなくなる可能性があるため、信頼するには甘すぎる基準である」と指摘しています。

実際の治療効果を判断するためにp値に依存しすぎた結果、臨床試験の価値を証明するのに欠かせない要素を考慮することなく、統計的に有意な結果のみを報告する論文が、生物医学分野に数多く登場しました。この歪みは、0か1かという統計的有意性の基準が、「治療効果の大きさ」「副次的評価項目における治療効果」「一般的なリスク／メリット評価におけるこれらの効果の意味」「効果の生物学的可能性」「再現性」「推論過程での観察結果の一般化の可能性」といった重要因子を除外していることに起因しています。

この数年間に、少なくとも1誌（Basic and Applied Social Psychology誌）が、p値の使用を禁止しました。これは苦しい決断だと考えられますが、Marc Buyse他をはじめとする研究者は、高インパクトファクターのジャーナルで、有意でない統計結果に基づく臨床データの解釈に異議を唱える論文を発表しています*2。

臨床関連の変化は一般的に、「minimally important changes（最小限の重要な変化、MIC）」や、「minimal clinically important differences（臨床的意義のある最小変化量、MCID）」などの用語で識別されるケースが一般的です。残念ながら、臨床的有意性は、客観的計測値で定義することができません。確実に言えるのは、統計データを用いて研究の臨床的有意性を評価するには、p値だけでは不十分だということです。

*1 Scientific method: Statistical errors (Nature 506, 150-152, 13 February 2014)
*2 Statistical controversies in clinical research: statistical significance?too much of a good thing … (Annals of Oncology 27: 760-762, 2016)

臨床的意義と統計的有意性を融合する方法

統計的に「有意である」または「有意でない」という二項対立で臨床試験の結果を見ると、集めたデータの広範な解釈を歪める結果に陥りがちです。効果量や信頼区間によって示される効果の重大さや相対的重要性は、臨床試験結果を報告する上で、より頑健な指標と考えられています。

１．効果量

治療の効果をシンプルに「はい」か「いいえ」で解釈する方法は一見魅力的ですが、このような二元論は、治療の効果や生物学的意義を正確に測定しなければならない研究者たちの世界では、非現実的なものです。臨床データの分析に効果量を含めると、グループ間における結果の差の大きさを表すことができるため、臨床的有意性を評価する上で、これは効果的な手法です。つまり、治療の効果量が大きいほど、実験群と対照群の間に大きな差があること、患者により大きな効果があるということが示されます

２．信頼区間

信頼区間は、多くの研究者が支持しているもので、CONSORT（Consolidated Standards of Reporting Trials：臨床試験報告に関する統合基準）声明でも支持されています。信頼区間とは、効果の測定における不確かさの度合いを示すものです。言い換えると、上限と下限の信頼限界を設けることで、真の母集団の効果量がこの2点の間に存在するという前提から推論を行うことができます。信頼区間はp値のように統計的に有意かどうかを示すことに加え、結果の精度を示す指標ともなります。

３．ベイズ的アプローチ

p値に基づく推定の問題には、転置条件と呼ばれる現実の論理的な誤りが表れています。貧血の患者が倦怠感を持つ可能性と、倦怠感を持つ患者が貧血である可能性がイコールではないのと同様に、介入群と対照群の間の差を示すp値＜0.05は、治療が実際に効果的である可能性を示しているわけではありません。現実の流動性と不確実性を把握するために、ベイズ的アプローチによって、臨床試験データの分析にパラダイム・シフトが巻き起こりました。

このアプローチは、病気の蔓延、患者の区分データ、症状などの因子を考慮した上でのみ決定を下し、事前確率を評価した後に診断検査を実施するという、医師のクリティカル・シンキングのプロセスを模倣したリサーチクエスチョンに取り組むというものです。Bittl and Heによる論文*3のように、このアプローチを支持する研究が増え続ければ、ベイズ統計学は、統計的エビデンスと臨床的有意性の統合において、従来の統計学をしのぐものとなるでしょう。

*3 Bayesian Analysis: A Practical Approach to Interpret Clinical Trials and Create Clinical Practice Guidelines(Circulation: Cardiovascular Quality and Outcomes. 2017;10:e003563)

まとめ

有意性の検定を支持し続ける人もいると思われますが、研究者は今こそ、その落とし穴を認識しなければなりません。

臨床試験結果の報告で読者に有意性を示すベストな方法は、研究のあらゆる重要情報を明確に報告し、すべての知見をほかの研究者と共有することだと言えるでしょう。