非劣性試験のサンプルサイズ計算と設計の落とし穴

非劣性試験のサンプルサイズを正しく設計するための知識

非劣性マージンを少しでも広く設定すれば、必要サンプルサイズは一気に半分以下になることがあります。

📋 この記事の3ポイント要約

🔢

サンプルサイズはマージンで激変する

非劣性マージンの設定次第で、必要症例数が数十例から数百例まで大きく変わります。設定根拠の明確化が最重要です。

⚠️

優越性試験より症例数が多くなりがち

「非劣性試験は楽そう」という印象は誤解です。通常、優越性試験よりも多くのサンプルが必要になります。

🧬

バイオクリープのリスクを知っておく

非劣性試験を繰り返すことで、実薬効果が知らぬ間に希釈されていく「バイオクリープ」が承認審査上の大きなリスクになります。

このページの目次

非劣性試験のサンプルサイズを正しく設計するための知識

非劣性試験のサンプルサイズ計算の基本：マージンと検出力の関係

非劣性試験におけるサンプルサイズ計算は、「どこまで劣っていても許容するか」を示す非劣性マージン（Δ）、有意水準（α）、検出力（1−β）の3つを軸に決まります。計算式の骨格は優越性試験と共通部分が多いですが、非劣性マージンをどの値に設定するかで、必要症例数が劇的に変化します。

たとえばEZRで平均値の非劣性試験を設計した場合、2群間の差を4.8、非劣性マージンを7、標準偏差を30、検出力80%に設定すると、各群80例・合計160例が必要です。これが非劣性マージンを小さくするほどサンプルサイズは大きくなります。マージンを絞ればデータの精度は上がりますが、実施コストも跳ね上がります。

結論はシンプルです。

非劣性マージンの根拠とサンプルサイズ計算は、切り離せない関係です。

以下の3要素を整理してから設計に入りましょう。

非劣性マージン（Δ）：プラセボとの差の何割を許容するかを規制当局の基準（ICH E9）に従って決める

検出力（1−β）：通常80%または90%を目標値として設定する
有意水準（α）：片側0.025（両側0.05相当）を使うのが一般的

参考：ICH E9「臨床試験のための統計的原則」の非劣性試験に関する解説
ICH E9「臨床試験のための統計的原則」もっと分かりやすく解説！｜Real World Evidence

非劣性試験のサンプルサイズは優越性試験より大きくなる理由

「非劣性試験はプラセボ対照がいらない分、症例数が少なくて済む」と考えている医療従事者は少なくありません。これは誤解です。

抗がん剤の非劣性試験に関する研究では、「非劣性試験は優越性試験よりもサンプルサイズが大きくなることが通常」と明記されています。その理由は、非劣性試験では「差がないこと＝小さな差を精度よく検出すること」を証明しなければならず、そのためには信頼区間を十分に狭くする必要があるからです。

信頼区間を狭くするには大きなサンプルサイズが必須です。

具体的な数字で見ると、割合を主要評価項目とした場合、試験薬の有効率0.813・標準薬0.741・非劣性マージン0.1・検出力90%という条件では、各群100例（合計200例）が必要と計算されます。同様の条件の優越性試験で必要な症例数を下回ることは、まずありません。

差を「証明しない」ことの証明は、差を「証明する」よりも統計的に難しい場面が多い
特にマージンを小さく設定したい薬剤（例：DOAC、新規経口糖尿病薬）では症例数が数百例規模になることも珍しくない

生存時間データの場合は「必要イベント数D」の計算が重要で、対照薬のハザード情報が少なくても設計できる利点がある

「症例数が多い＝試験の信頼性が高い」が基本です。

参考：生存曲線の比較（非劣性）のサンプルサイズ計算の詳細解説
2群の生存曲線の比較(非劣性)のためのサンプルサイズの計算｜Emuyn

非劣性マージン設定の落とし穴：数字の根拠が求められる理由

非劣性マージンの設定は、試験デザインの中で「最も理解しにくい部分」と専門家でも認めています。臨床的に見て「このくらいの差なら許容できる」というリスク・ベネフィットのバランスで決めるのが原則ですが、その根拠を数値で示さないと規制当局に認められません。

一般的にはハザード比1.25または1.33を非劣性マージンとして設定する試験が多いとされています。ただし、時にはハザード比2.0という大きなマージンが許容される試験もあり、疾患の重篤度や代替ベネフィット（副作用の少なさ、服用しやすさなど）によってマージンの許容幅は変わります。

意外ですね。

ICH E9では、非劣性マージンは「実対照薬がプラセボに対して示すであろう効果の一部より小さく設定しなければならない」と定められています。つまり、過去のプラセボ対照試験データが存在しない薬剤を基準薬にすると、マージン設定の根拠自体が崩れてしまいます。

マージン設定	サンプルサイズへの影響	リスク
マージンを大きく設定	必要症例数が減少	臨床的に意味のない薬の承認リスク ↑
マージンを小さく設定	必要症例数が増加	試験の実施コスト・期間が大幅増
根拠のないマージン	影響なし（設計上）	規制当局への申請が却下されるリスク ↑

参考：非劣性試験の問題点と非劣性マージンの妥当性に関する専門家座談会
〈J-CLEAR主催座談会〉非劣性試験の問題点｜日本医事新報社

バイオクリープ（bio-creep）がサンプルサイズ設計に与える影響

非劣性試験を繰り返すことで発生する「バイオクリープ」は、サンプルサイズ設計にも直結する見落としがちなリスクです。バイオクリープとは、薬剤AにBが非劣性→BにCが非劣性→と連鎖するうちに、最終的に効果がプラセボレベルに近い薬剤が「非劣性」として承認されてしまう現象です。

これは深刻です。

シミュレーションでは、10回の非劣性連鎖試験を重ねると、実際の治療効果がプラセボに対してわずか28%の維持にまで目減りする可能性があることが示されています。このリスクを回避するには、試験計画時点での「constancy assumption（恒常性の仮定）」の確認が欠かせません。

constancy assumptionとは、過去のプラセボ対照試験と現在の非劣性試験で対照薬の効果が変わっていないと仮定すること

この仮定に違反があると、バイオクリープが高率に出現するとシミュレーションで確認されている

PMDAも「非劣性試験特有の問題点」として正式に認識しており、マージン設定と合わせた審査が行われる

PMDAへの申請を意識するなら、バイオクリープ対策として基準薬のプラセボ対照データを必ず確認しておきましょう。対照薬の過去のプラセボ試験データが古い・少ない場合は、固定マージン法に加えて、適応的試験設計（adaptive design）の採用も検討に値します。

参考：感染症医向けの非劣性試験の読み方・バイオクリープの詳細解説
感染症医のための非劣性試験の読み方（3/3）｜KANSEN JOURNAL

非劣性試験のサンプルサイズ計算をEZR・Rで実装する実践的手順

実務でサンプルサイズ計算を行う際は、EZRまたはRのgsDesignパッケージを使うのが効率的です。これを知っておくと計算ミスが大幅に減ります。

EZRの場合（平均値）は「統計解析」→「必要サンプルサイズの計算」→「2群の平均の比較（非劣性）のためのサンプルサイズの計算」を選択します。割合のデータなら「2群の比率の比較（非劣性）のためのサンプルサイズの計算」を選びます。

手順を整理すると以下のとおりです。

1. 仮定する差（真の群間差）：期待される治療効果の差を事前データから設定する
2. 非劣性マージン：臨床的根拠に基づいて設定する（通常Δ > 0）
3. 標準偏差（平均値の場合）または各群の割合（割合の場合）：過去の試験データから引用する
4. αエラー：片側0.025を入力（EZRでは0.05と入力し片側検定を選択）
5. 検出力：0.80または0.90を選択する

Rの場合はgsDesignパッケージのnNormal()関数（平均値）またはnBinomial()関数（割合）を使います。注意点として、nNormal()関数は非劣性マージンの符号がEZRと逆（マイナス）で入力が必要です。

```
# Rでの平均値・非劣性試験サンプルサイズ計算の例
nNormal(delta1=4.8, delta0=-7, sd=30, alpha=0.05, beta=0.2)
```

計算結果はあくまでも出発点です。

実際の試験では脱落率（通常10〜20%を見込む）を加味して、計算値より1.1〜1.25倍の症例数を最終的な目標症例数として設定することが推奨されます。 JCOG（日本臨床腫瘍研究グループ）の指針でも、検証的試験では事前に詳細な統計計画書を作成し、サンプルサイズの根拠を文書化することが求められています。

関連）https://jcog.jp/A_020_0010_07.pdf

脱落率は必ず上乗せが条件です。

参考：EZR・Rを使った非劣性試験サンプルサイズ計算の具体的コード解説
R と EZR で平均値の非劣性検定に必要なサンプルサイズを計算する方法｜best-biostatistics.com

R と EZR で割合の非劣性検定に必要なサンプルサイズを計算する方法｜best-biostatistics.com