非劣性マージンを少しでも広く設定すれば、必要サンプルサイズは一気に半分以下になることがあります。
非劣性試験におけるサンプルサイズ計算は、「どこまで劣っていても許容するか」を示す非劣性マージン(Δ)、有意水準(α)、検出力(1−β)の3つを軸に決まります。 計算式の骨格は優越性試験と共通部分が多いですが、非劣性マージンをどの値に設定するかで、必要症例数が劇的に変化します。
関連)https://www.pmda.go.jp/files/000204955.pdf
たとえばEZRで平均値の非劣性試験を設計した場合、2群間の差を4.8、非劣性マージンを7、標準偏差を30、検出力80%に設定すると、各群80例・合計160例が必要です。 これが非劣性マージンを小さくするほどサンプルサイズは大きくなります。マージンを絞ればデータの精度は上がりますが、実施コストも跳ね上がります。
結論はシンプルです。
非劣性マージンの根拠とサンプルサイズ計算は、切り離せない関係です。
以下の3要素を整理してから設計に入りましょう。
関連)https://real-world-evidence.org/ich-e9-statistical-principles-for-clinical-trials-qanda/
参考:ICH E9「臨床試験のための統計的原則」の非劣性試験に関する解説
ICH E9「臨床試験のための統計的原則」もっと分かりやすく解説!|Real World Evidence
「非劣性試験はプラセボ対照がいらない分、症例数が少なくて済む」と考えている医療従事者は少なくありません。 これは誤解です。
抗がん剤の非劣性試験に関する研究では、「非劣性試験は優越性試験よりもサンプルサイズが大きくなることが通常」と明記されています。 その理由は、非劣性試験では「差がないこと=小さな差を精度よく検出すること」を証明しなければならず、そのためには信頼区間を十分に狭くする必要があるからです。
関連)http://www.theidaten.jp/wp_new/20140904-51-1/
信頼区間を狭くするには大きなサンプルサイズが必須です。
関連)http://www.theidaten.jp/wp_new/20140904-51-1/
具体的な数字で見ると、割合を主要評価項目とした場合、試験薬の有効率0.813・標準薬0.741・非劣性マージン0.1・検出力90%という条件では、各群100例(合計200例)が必要と計算されます。 同様の条件の優越性試験で必要な症例数を下回ることは、まずありません。
関連)https://www.jmedj.co.jp/blogs/product/product_8758?page=3
関連)https://www.sas.com/content/dam/SAS/ja_jp/doc/event/sas-user-groups/usergroups10-a-08.pdf
「症例数が多い=試験の信頼性が高い」が基本です。
参考:生存曲線の比較(非劣性)のサンプルサイズ計算の詳細解説
2群の生存曲線の比較(非劣性)のためのサンプルサイズの計算|Emuyn
非劣性マージンの設定は、試験デザインの中で「最も理解しにくい部分」と専門家でも認めています。 臨床的に見て「このくらいの差なら許容できる」というリスク・ベネフィットのバランスで決めるのが原則ですが、その根拠を数値で示さないと規制当局に認められません。
関連)http://www.jaccro.com/wp/wp-content/uploads/media/activities/howto/208_howto.pdf
一般的にはハザード比1.25または1.33を非劣性マージンとして設定する試験が多いとされています。 ただし、時にはハザード比2.0という大きなマージンが許容される試験もあり 、疾患の重篤度や代替ベネフィット(副作用の少なさ、服用しやすさなど)によってマージンの許容幅は変わります。
関連)http://www.jaccro.com/wp/wp-content/uploads/media/activities/howto/208_howto.pdf
意外ですね。
ICH E9では、非劣性マージンは「実対照薬がプラセボに対して示すであろう効果の一部より小さく設定しなければならない」と定められています。 つまり、過去のプラセボ対照試験データが存在しない薬剤を基準薬にすると、マージン設定の根拠自体が崩れてしまいます。
関連)https://real-world-evidence.org/ich-e9-statistical-principles-for-clinical-trials-qanda/
| マージン設定 | サンプルサイズへの影響 | リスク |
|---|---|---|
| マージンを大きく設定 | 必要症例数が減少 | 臨床的に意味のない薬の承認リスク ↑ |
| マージンを小さく設定 | 必要症例数が増加 | 試験の実施コスト・期間が大幅増 |
| 根拠のないマージン | 影響なし(設計上) | 規制当局への申請が却下されるリスク ↑ |
参考:非劣性試験の問題点と非劣性マージンの妥当性に関する専門家座談会
〈J-CLEAR主催座談会〉非劣性試験の問題点|日本医事新報社
非劣性試験を繰り返すことで発生する「バイオクリープ」は、サンプルサイズ設計にも直結する見落としがちなリスクです。 バイオクリープとは、薬剤AにBが非劣性→BにCが非劣性→と連鎖するうちに、最終的に効果がプラセボレベルに近い薬剤が「非劣性」として承認されてしまう現象です。
関連)http://www.theidaten.jp/wp_new/20140918-51-3/
これは深刻です。
シミュレーションでは、10回の非劣性連鎖試験を重ねると、実際の治療効果がプラセボに対してわずか28%の維持にまで目減りする可能性があることが示されています。 このリスクを回避するには、試験計画時点での「constancy assumption(恒常性の仮定)」の確認が欠かせません。
関連)http://www.theidaten.jp/wp_new/20140918-51-3/
関連)https://www.gi-cancer.net/gi/study/04/page1.html
関連)http://www.theidaten.jp/wp_new/20140918-51-3/
関連)https://www.pmda.go.jp/files/000222014.pdf
PMDAへの申請を意識するなら、バイオクリープ対策として基準薬のプラセボ対照データを必ず確認しておきましょう。 対照薬の過去のプラセボ試験データが古い・少ない場合は、固定マージン法に加えて、適応的試験設計(adaptive design)の採用も検討に値します。
参考:感染症医向けの非劣性試験の読み方・バイオクリープの詳細解説
感染症医のための非劣性試験の読み方(3/3)|KANSEN JOURNAL
実務でサンプルサイズ計算を行う際は、EZRまたはRのgsDesignパッケージを使うのが効率的です。これを知っておくと計算ミスが大幅に減ります。
EZRの場合(平均値)は「統計解析」→「必要サンプルサイズの計算」→「2群の平均の比較(非劣性)のためのサンプルサイズの計算」を選択します。 割合のデータなら「2群の比率の比較(非劣性)のためのサンプルサイズの計算」を選びます。
手順を整理すると以下のとおりです。
1. 仮定する差(真の群間差):期待される治療効果の差を事前データから設定する
2. 非劣性マージン:臨床的根拠に基づいて設定する(通常Δ > 0)
3. 標準偏差(平均値の場合)または各群の割合(割合の場合):過去の試験データから引用する
4. αエラー:片側0.025を入力(EZRでは0.05と入力し片側検定を選択)
5. 検出力:0.80または0.90を選択する
Rの場合はgsDesignパッケージのnNormal()関数(平均値)またはnBinomial()関数(割合)を使います。 注意点として、nNormal()関数は非劣性マージンの符号がEZRと逆(マイナス)で入力が必要です。
```
# Rでの平均値・非劣性試験サンプルサイズ計算の例
nNormal(delta1=4.8, delta0=-7, sd=30, alpha=0.05, beta=0.2)
```
計算結果はあくまでも出発点です。
実際の試験では脱落率(通常10〜20%を見込む)を加味して、計算値より1.1〜1.25倍の症例数を最終的な目標症例数として設定することが推奨されます。 JCOG(日本臨床腫瘍研究グループ)の指針でも、検証的試験では事前に詳細な統計計画書を作成し、サンプルサイズの根拠を文書化することが求められています。
関連)https://jcog.jp/A_020_0010_07.pdf
脱落率は必ず上乗せが条件です。
参考:EZR・Rを使った非劣性試験サンプルサイズ計算の具体的コード解説
R と EZR で平均値の非劣性検定に必要なサンプルサイズを計算する方法|best-biostatistics.com