ホーム > eラーニング > 審査に必要な方法論の知識

eラーニング

審査に必要な方法論の知識

人を対象とする研究も、一般の研究同様、まず科学的でなければいけません。「科学的である」とは、結論を導くための方法論が十分に合理的であるということです。方法論に欠陥があると、例えば、臨床試験の結果が予想に反していた時、仮説が間違っていたのか、方法に欠陥があったのか、区別ができません。社会に全く貢献できない研究に参加した被験者は、リスクと負担を引き受けながら、報われることがありません。科学的でない研究を行うことは、倫理的に認められないのです。したがって、倫理審査においては、研究の方法論についてもよく吟味されなければいけません。

1. 研究デザイン

臨床研究には、大きく分けて次の2つの種類があります。

  • (1) 仮説探索的研究
  • (2) 仮説検証的研究

仮説探索的研究とは、事前に仮説を特定することなく、得られたデータの中から何らかの規則的な関係や新たな仮説を帰納的に見出すものです。日常診療の経験から作業仮説を導こうとする症例報告や症例集積研究などは、この種の研究です。看護研究における「質的研究」や、疾患関連遺伝子の探索などもこの仲間に入ります。

一方、仮説検証的研究とは、事前に仮説を定め、それが正しいか否かをデータによって判断することを目的とします。治験を含め、介入を伴う研究は検証的研究です。検証的研究は仮説演繹法の進歩による方法論であり、科学的な根拠となります。また、EBM(根拠に基づく医療)の実施のための基礎データを提供します。

検証的研究において最も気を配るべきことは、バイアスを制御することです。治療法Aと治療法Bとを比較するとき、治療法Aの方に重篤な患者さんが多く集まっていたら公平な比較になりません。バイアスを制御する最も良い方法は無作為化(ランダム化)比較試験(RCT)です。後の標準治療を決定するための研究は、可能な限りRCTでなければいけません。さらに、可能であれば、二重盲検化し、中央登録方式(割り付けを第三者が行う方法)を用いることが望まれます。

RCTを実施するためのさまざまな要件は、「CONSORT声明:ランダム化並行群間比較試験報告の質を改善するための勧告」(CONSORT Statement)にまとめられています(日本語訳は、http://homepage3.nifty.com/cont/CONSORT_Statement/consort2001J.pdfで読むことができます)。この声明は、主要医学雑誌編集者の委員会により作成されたもので、RCTの投稿論文に必要な項目が列挙されています。RCTの審査はこの声明の項目に沿って行うとよいでしょう。

検証的研究においては、結論の正しさを保証するため、症例数(被験者数)を合理的に設計しなければいけません。例数の少ない研究では、偶然により結果が左右される可能性が否定できません。とはいえ、例数が多すぎると時間も費用もかかり、そもそも実行不可能なこともあります。結論の判定に統計的検定を用いる場合、一般に「検出力」を基準として例数を設計します。検出力の計算には専門的知識が必要な場合もあるので、統計学の専門家に相談することが望まれます。一方、探索的研究では、例数設定の根拠は必要ですが、検出力を利用することはできません。

バイアスを取り除くにはRCTが最適ですが、研究の順序として、いきなりそれを行うことはできません。なぜなら、RCTを設計するためには治療法に関する基本的データが必要ですが、これは、文献からは必ずしも得られないからです。そこで、RCTに先立つパイロット試験として、比較対照のない臨床試験を行うことがあります。

RCTが原理的または倫理的に不可能な状況では、次善の策として観察研究が行われます。観察研究には、

  • 横断的研究
  • ケース・コントロール(症例対照)研究
  • コホート(要因対照)研究

などのデザインがあります。それぞれの得失に応じて、適切なデザインを選択しなければいけません。観察研究では、交絡変数があらかじめ特定できていれば、統計モデルによりバイアスの補正を行うことができます。しかし、未知の交絡変数によるバイアスは補正することができないことに注意しなければいけません。

2. 統計解析方法

臨床研究は、因果関係の学問です。因果関係の強さを評価するためは、統計学的解析方法による検定という手段が用いられます。検定の方法にはさまざまな種類がありますが、因果(原因・結果)関係の「結果」側の変数の性質によって使い分けます。主要な方法には次のようなものがあります。

「結果」側の変数が、

量的変数(比例尺度・間隔尺度)の場合:
t検定・回帰分析・分散分析・共分散分析
名義尺度の場合:
χ2(カイ自乗)検定・Fisherの正確確率検定・Mantel-Haenszel検定・ロジスティック回帰
順序尺度の場合:
Wilcoxon検定・Mantel-Haenszel検定・比例オッズモデル
生存時間の場合:
Logrank検定・一般化Wilcoxon検定・Cox回帰(比例ハザードモデル)

臨床研究の結果を評価するのによく用いられるのは、t検定やχ2検定などです。 ただし、これらの手法は、あくまで検証的研究のための方法論であって、探索的研究に当てはめることはできません。なぜでしょうか。統計的検定では、無作為抽出または無作為割り付けを前提としてp値を計算します。臨床研究で無作為抽出を行うことはまず不可能ですが、探索的研究では無作為割り付けも行わないので、そもそも統計的検定のような方法論は不要なのです。統計的検定を使うから研究が科学的になるのではありません。探索的研究にまで統計的検定方法を求めることは、むしろ非科学的だといえます。

統計的方法には、前提となる条件が存在します。たとえば、t検定を実施するためには、

  • (1) 独立
  • (2) 正規分布
  • (3) 等分散

の3つの条件が必要です。このうち「独立」の条件は絶対に必要で、これが満たされない経時的データでは、データ間の相関を考慮した特別な方法(たとえば対応のあるt検定)が必要になります。しかし、「正規分布」と「等分散」の条件については、たとえ崩れたとしても検定結果にさほど影響を及ぼしません。したがって、審査の段階で、正規分布や等分散の条件についてあまり神経質になる必要はありません。

正規分布からのズレというのは、実務的には外れ値の混入を意味します。データに外れ値が含まれると、分散が大きく推定されるので検定が有意になりにくくなるという問題が発生します。しかし、それでも有意になるのであれば、より高いハードルを越えたということであり、検定(α水準)の妥当性に問題はないといえます。ただし検出力(β水準)は不利になるので、この損失を防ぐためには適切なノンパラメトリック手法を援用することになります。試験により得られたデータが正規分布とみなせるかどうかを検定という手法で判断しようとするのはナンセンスです。なぜなら、検定というのは「正しい判断をする」方法ではなく「帰無仮説を棄却するための証拠の強さ」を測っているからです。私たちが実際に得るデータは、厳密には正規分布していません。サンプル数が大きければ、どんな分布でも正規性は否定され、逆にサンプル数が小さければ、どんな分布でも正規性を棄却できません。また等分散の問題は、両群のサンプル数がほぼ等しい状況では考慮しなくてもよいことがわかっています。そもそも、ランダムに割り付けた試験で非等分散になったとすれば、割り付けに失敗したか、外れ値が混入したことが疑われるので、そちらの対応が必要です。

統計解析の技術は奥深い学問分野なので、倫理審査委員会の委員がすべて理解するのは困難です。審査委員会の中に統計解析に詳しい人が一人でもいるとたいへん助かります。統計解析の方法論に関し、検定の前提条件や多重比較などをあまり厳格に見る必要はありません。それよりは、試験としてのバイアスを評価することの方が本質的です。

治験の場合、プロトコール作成は専門家が担当しているはずなので、統計解析の方法論についてはまず大丈夫と考えてよいでしょう。一般臨床研究の統計解析をレベルアップするには、医学部等における統計学教育を充実させることが必要です。