グループ逐次デザイン(GSDs)

GSDは、治療法が有効か無効かという説得力のある証拠を発見した場合に、研究者が早期にトライアルを中止できるようにするアダプティブデザインの一種です。
ある種の化学療法が腫瘍の治療に有効かどうかをテストする研究を計画し、データが数年にわたって収集されることを期待しているとします。すべてのデータが収集された後に1つの分析を実行するのではなく、GSDを使用すると、データが収集されたときに中間分析を実行できます。各中間分析では、トライアルを停止するか、データ収集を続行する機会が提供されます。有効性の強い証拠があれば、試験を早期に中止することができます。無益であるという強力な証拠がある場合は、試験を早期に中止することもできます。これにより、追加の参加者が不適切な治療を受けることを回避できます。
Stata 18は、GSD用の一連のコマンドを提供します。新しいgsboundsコマンドは、解析(lookとも呼ばれます)の数、目的の全体的なタイプIエラー、および目的の検出力に基づいて有効性と無益性の境界を計算します。7つの境界計算方法から選択できます。従来の方法とerror-spending法のどちらを使用するか、および初期の分析でより保守的な境界を使用するか、またはより保守的な境界を使用するかを選択します。新しいgsdesignコマンドは、有効性と無益性の境界を計算し、平均、比例、および生存関数の検定の中間および最終分析のサンプル サイズを提供します。
グラフを使用すると、すべての中間および最終分析の境界を簡単に視覚化できます。

gsコマンド

gsコマンド群には、gsbounds と gsdesign の 2 つのコマンドが用意されています。
gsbounds コマンドは、look とも呼ばれる解析の数、目的の全体的なタイプ I エラー、および目的の検出力に基づいて、有効性と無益性の境界を計算します。
次の 7 つの境界計算方法から選択できます。

  • 古典的なO'Brien–Fleming
  • 古典的なPocock
  • 古典的なWang–Tsiatis
  • Error-spending Pocock style
  • Error-spending O'Brien–Fleming style
  • Error-spending Kim–DeMets
  • Error-spending Hwang–Shih–de Cani

たとえば、観察数が 5、検出力が 0.9、第 1 種の誤差が 0.05 の研究の O'Brien-Fleming の有効性と無益性の境界を計算するには、次のように入力します。
. gsbounds, efficacy(obfleming) futility(obfleming) nlooks(5) power(0.9) alpha(0.05)
これらの境界を視覚化するには、上記のコマンドに、graphbounds オプションを追加します。
gsdesign コマンドは、有効性と無益性の境界を計算し、さまざまな検定のルックごとにサンプル サイズを提供します。 gsdesign は、トライアルで実行する検定のタイプに応じて、以下にリストされているサブコマンドのいずれかで指定されます。

コマンド 概要
gsdesign onemean 1 標本平均検定の GSD
gsdesign twomeans 2 標本平均検定の GSD
gsdesign oneproportion 1 標本比率検定の GSD
gsdesign twoproportions 2 標本比率検定の GSD
gsdesign logrank ログランク検定のGSD
gsdesignusermethod ユーザが定義した手法のGSD

操作例

新しい小児 COVID-19 ワクチン (実験的治療) のグループ逐次試験の設計に関心があるとします。これを第一世代ワクチン (対照治療) と比較します。 参加者の中和抗体力価のログを測定し、実験群の平均対数力価と対照群の平均ログ力価を比較します。 gsdesign twomeans を使用して、停止境界とそのような試行に必要なサンプルサイズを計算できます。
統制群では 2 の既知の標準偏差で 5.5 の平均対数力価、対照群では 3 の既知の標準偏差で 6.5 の平均対数力価が予想されるとします。 検出力 90% で 2.5% レベルの片側検定のサンプル サイズを計算し、対照群の 2 倍の参加者を実験群に割り当てます。
データの 50%、65%、80%、90%、および 100% で実行される予定の 5 つのルック (4 つの中間分析と最終分析) のサンプルサイズを計算します。 古典的なO'Brien–Fleming境界の誤差支出近似を使用して、有効性と拘束力のない無益性の境界を計算します。
. gsdesign twomeans 5.5 6.5, sd1(2) sd2(3) knownsds onesided alpha(0.025) power(0.9) nratio(2) information(50 65 80 90 100) efficacy(errobfleming) futility(errobfleming) graphbounds

この試験が最終分析まで続く場合、305 人の参加者が必要になります。 ただし、予想されるサンプルサイズは小さく、帰無仮説が真の場合は 179、対立仮説が真の場合は 213 です。 早期に中止するオプションがない同等の固定試験デザインでは、269 人の参加者が必要になります。
出力の下部にある表は、停止境界を重要な z 値と p 値の両方、および各分析で必要なサンプルサイズとして示しています。 対照群の 51 人の参加者と実験群の 102 人の参加者からデータが収集されると、最初のlookが発生します。 z 統計量が 2.96 以上の場合、H0 は拒否され、試行は中止されます。 z 統計量が 0.38 未満の場合、H0 を受け入れることができ、試行は無駄に終了できます。 ただし、無益の境界は拘束力がないため、z 統計量が 0.38 未満であっても、ファミリワイズ タイプ I エラーをオーバーランすることなく試行を続行できます。 最初のルックでの z 統計が 0.38 から 2.96 の間である場合、試行は 2 回目のルックまでデータの収集を続行する必要があります。
2 回目、3 回目、4 回目の検査手順は、1 回目と同様です。 違いは、有効性と無益性の境界が徐々に近づいていることです。 対照群の 102 人の参加者と実験群の 203 人の参加者からデータが収集された後に行われる 5 回目の最終的な調査では、有効性の臨界値は無益性の臨界値と等しくなり、続行するオプションはありません。 最終ルックでの z 統計が 2.08 以上の場合、H0 は拒否されます。 それ以外の場合は、H0 が受け入れられます。
graphbounds オプションが指定されたときに生成されるグラフにより、停止境界と各ルックで実行する必要のあるアクションを簡単に視覚化できます。

z 統計量が青色の拒否領域内にある場合、試行は有効性のために停止されます。 z 統計量が赤の許容領域内にある場合、試行は無益であるため停止できます。 z 統計量が緑色の継続領域にある場合、試行は次のルックに進みます。

Stata is a registered trademark of StataCorp LLC, College Station, TX, USA, and the Stata logo is used with the permission of StataCorp.

page_top_icon