揺らぐ臨床試験の信頼性 複合エンドポイントの重大な問題点
2007-10-17
(キーワード: 複合エンドポイントの多用、揺らぐ臨床試験の信頼性)
医薬品の有効性・安全性を確認する臨床試験のゴールデン・スタンダード(信頼が厚い基準)は二重目隠しランダム化比較試験とされているが、最近循環器領域の大規模臨床試験をはじめとして、被験物質群か対照群かが医師・患者に分かっており歪みを生じる試験手法であるPROBE法(註1)が多用されるなど、臨床試験の信頼性が大きく揺らいでいる(※1)。そしてニューイングランド医学雑誌、JAMA、ランセット、BMJ誌など一流とされる医学誌に掲載されたランダム化比較臨床試験論文を読むのにも、構えて批判的に読まねばならないという残念な現状となっている。
臨床試験の信頼性が揺らいでいる現状に関する各論のひとつとして、今回は多用される「複合エンドポイント(composite endpoint)」の問題点を指摘した論文をとりあげる。
エンドポイントとは臨床試験で被験物質などによる医学的介入の効果をみる指標である。例えば心筋梗塞の発症やそれによる死亡の抑制を期待する物質であれば、心筋梗塞、突然死、総死亡などのハードエンドポイントといわれる指標や、狭心症や冠動脈血行再建術などがその指標とされる。何を指標とするかは試験の計画段階であらかじめ決められる。実際には、試験計画者、すなわち試験の資金提供者(スポンサー)の意向と、その意向を受けて試験を担当する研究者(医師、生物統計学者など)の主観で決定されるものである。
かつては、プライマリー・エンドポイント(第1位のエンドポイント)として最も適切な指標を1つ選定し臨床試験プロトコール(計画書)に明記することが推奨されていた。それが大きく様変わりし、現在では複合エンドポイントが多用されている。複合エンドポイントとは、ひとつの単純なエンドポイントでなく、複数のエンドポイントを組み合わせたもので、最近の大規模臨床試験におけるプライマリー・エンドポイントでの実例を以下に示す。
メバロチン MEGAスタディ
致死性ないし非致死性心筋梗塞を含む冠動脈心臓疾患、狭心症の最初の発症、心臓疾患による死亡ないし突然死、冠動脈血行再建術[結果:有意差あり]
アクトス PROactiveスタディ
総死亡、非致死性心筋梗塞(無症状心筋梗塞を含む)、脳卒中、急性冠動脈症候群、冠動脈ないし下肢動脈の脈管内ないし外科的介入、足関節部切断 [結果:有意差なし]
この風潮に、BMJ誌にオンライン掲載(2007.4.2)された論文(※2)と同論文関連の論説が警鐘を鳴らしているので紹介する。以下はその要旨である。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
[BMJ誌の論文: 循環器領域臨床試験での複合エンドポイント使用の問題点: ランダム化比較試験の系統的レビュー BMJ334, 786, 2007(※2)]
臨床試験、とりわけ循環器領域の臨床試験で、複合エンドポイントの使用が増加している。複合エンドポイントの使用は、複数のエンドポイントの設定によりエンドポイントを経験する患者の数を増やし、それによって統計的な検出力を高め臨床試験に必要な患者数を減らすことを可能にする。また、多くのエンドポイントを並べることで、それら全体に対する治療効果のインパクトを強めることができる。
2002年1月から2003年6月までの期間に、主要な医学総合誌4誌と循環器領域の専門誌2誌に掲載された循環器領域のランダム化比較臨床試験242件をメドラインで抽出した。この内約半数の114件が、患者にとって重要なエンドポイントを含む、プライマリー(第1位)の複合エンドポイントを用いた試験であった。その内複合エンドポイントを構成する各エンドポイントのデータを記載しているのは68%のみであった。98%が死亡のエンドポイントを複合エンドポイントのひとつとして含んでおり、通常は総死亡であった。患者にとっての重要度の観点からみて、複合エンドポイントを構成する各エンドポイントには、死亡という最重要なものからあまり重要でないものまで軽重が存在した。56%ではその軽重の勾配が大きいかまたは中等度であった。そして、複合エンドポイントを評価指標にして被験物質を評価すると、患者にとって重要度が低いエンドポイントでの効果が大きく寄与する一方、重要度が高いエンドポイント(総死亡など)は発生数が小さいなどで寄与していなかった。
患者にとって重要度が低いエンドポイントの発生率が高く、そのことが治療効果と関連しているため、被験物質の効果を過大に評価し、誤って印象付けることになり得る。
註1 PROBE法
PROBEは、Prospective(前向きに計画して行う)、Randomized(ランダム化)、Open(オープン、試験を行う医師・患者に被験薬群と対照群のどちらに割付けられているかが目隠しになっていない)、Blinded End-point(被験薬の効果をみる指標であるエンドポイントが目隠しになっている)の頭文字を綴り合せている。医師・患者には被験薬群か対照群のいずれかに割付けられているかがわかっているが、あらかじめ計画されたエンドポイントが発生したと考える時点で医師が委員会に報告し、被験薬群・対照群のどちらかを知らない委員会がその診断がエンドポイントとして適当かを判定する。医師や患者に被験薬群と対照群のどちらに割付けられているかがわかっていることが、患者や医師の判断やとる行動に影響を与え、試験結果に歪みをもたらす可能性が大きい。
[BMJ誌の論説: ランダム化比較臨床試験における複合および代替エンドポイント 複合エンドポイントは誤りに導き得るーそして医薬品行政の人たちがそれを許しているBMJ334,756,2007]
著者たちは、複合エンドポイントの使用によって臨床試験の結果が誤った理解に導かれ得ることを報告した。臨床試験の結果を用いる人々ー医師や患者―がこのようなことに気づかないなら、医薬品行政に携わる人々は、自分たちが果たすべき役割についてよく吟味する必要があろう。
試験成績が肯定的か否定的かに関して、プライマリーエンドポイントにおける結果はきわめて重要なポイントである。そして統計的な検出力を高めるには、被験者の全体数を増やすよりもエンドポイントの事象を経験する被験者の数を増やす方が有利である。
米国のFDA(食品医薬品庁)は、死亡をその1要素に含む複合エンドポイントの使用に積極的である。欧州の医薬品販売承認プロセスはFDAを追いかけているように見える。実際に米国は医薬品の世界市場の約60%を占めているので、FDAの政策は医薬品行政のお手本のようになっている。
医薬品行政に携わる人々は、臨床試験計画のガイドラインで自分たちが求めているプライマリーエンドポイントで得られるものが、患者に真の臨床的利益をもたらすものかを確認することが大切である。また、規制方針における、各種の要素からなる試験結果尺度を適正に解釈するという困難な問題を、論じることが必要である。 (T)
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
[解説]
近年、真に画期的と呼べるよい薬剤がでないが、ランダム化比較試験や、そのシステマティックレビュー* による科学的証拠がより強く求められるようになってきた。そこで、一見科学的手法を装いながら、害を小さく見せ、効果をより大きく見せるための工夫がなされている。複合エンドポイントを用いる方法は、そうした工夫の一つの典型である。
なかでも、アクトスの臨床試験は、複合エンドポイントを悪用した典型例の最たるものである(以下、TIP誌2006年1月号※3より引用)。
*システマティックレビュー(系統的レビュー): 関連のある研究を総当り調査して得られた、質の良い研究のみを総合解析する手法。
主要評価項目は、死亡、非致死性心筋梗塞、脳卒中、下肢切断や急性冠動脈症候群、経皮的冠動脈インターベンション、または冠動脈バイパス術、下肢血行再建術などいずれかを実施した場合をイベント発症とし、
そのイベントが最初に現れるまでの期間とされた。プラセボ群2633人中572人(23.5%)にイベントが発生したのに対して、アクトス群2605人中514人(21.5%)にイベントが発生した(有意差なし,P=0.095)。ところが、「最重要副次的評価項目」では、プラセボ群358人(14.4%)にイベントが発生したのに対し,アクトス群301人12.3%)にイベントが発生した(有意差あり、P=0.027)という。「最重要副次的評価項目」とは、総死亡、非致死性心筋梗塞、脳卒中のいずれかのイベント発症までの期間である。
最も重大な欠陥は、心血管障害の重要なエンドポイントである「心不全」が、これら複合エンドポイントに含まれていないことである。心不全は、プラセボ群198人(7.5%)に対して、アクトス群281人(10.8%)であった(オッズ比1.49、95%信頼区間1.22-1.81、00004)と高かった。そして、心不全を含めた心血管疾患の複合エンドポイントでは、全く差がなくなってしまい、むしろ、プラセボ群の方が少ないくらいとなる。
また、「イベント発症までの期間」を比較しているため、たとえば、ある人に非致死的心筋梗塞が起これば、その人に生じたイベントは「非致死的心筋梗塞」のみであり、その後心筋梗塞や心不全、あるいは他の原因によって死亡しても、最初に生じた「非致死的心筋梗塞」がその人の「イベント」となる。こうすることにより、「総死亡そのものだけ」を取り出した比較を、表や図から読み取ろうとしても読み取ることができない。
このように、複合エンドポイントを用いることによって、試験結果の中で不都合な結果が出た場合にでも、巧妙なデータ操作が可能となり、試験物質の真の影響が示されないことにつながる。 (解説:H)