Stark（2016）でのp値と帰無仮説の定義

このブログ記事では，Stark（2016）のp値と帰無仮説の定義を紹介する．Stark(2016)は，2016年米国統計学会p値声明（Wassrstein and Lazar 2016）の補足資料に掲載されたコメントの1つである

p値の定義

p値声明（Wassrstein and Lazar 2016）では，「荒っぽく述べると（informally），p値は，特定の統計モデルのもとで，データの統計的要約（例えば，比較対象とする2群の標本平均の差）が観測された値以上に極端になる確率である」と述べられている．

この荒っぽい定義（informal definition）をStark（2016）は「曖昧で役に立たない（vague and unhelpful）」として，脚注4にて点帰無仮説におけるp値の「最も単純で一般的」な定義を述べている．

Stark(2016)の脚注4でのp値の定義

帰無仮説を「 ${\mathbb P}$ がデータ $X$ の確率分布である」とする．ここで $X$ は，可測空間 $\mathcal{X}$ で値を取るとする． $\{R_\alpha \}_{\alpha \in [0, 1]}$ を，次の2条件を満たす ${\mathbb P}$ -可測部分集合族とする．

(1) $P(R_\alpha) \le \alpha$
(2) $\alpha' \lt \alpha$ ならば $R_{\alpha'} \subset R_{\alpha}$

このとき，データ $X = x$ に対する $H_0$ のp値は， ${\rm inf}_{ \alpha \in [ 0, 1 ]} \{ \alpha : x \in R_{\alpha} \}$ と定義される．◻︎

なお，これは点帰無仮説に限った定義である．複合帰無仮説の場合には，上記の定義も，p値声明の定義と同様，もう一工夫が必要となるだろう．

p値声明の定義では，「極端な」や「要約」という曖昧な言葉がある．どの領域のどちらの方向が「極端」というのだろうか？　また，「要約」とはなんだろうか？　

Stark(2016)の定義では，とりあえず上記2つの条件を満たす $\{R_\alpha \}_{\alpha \in [0, 1]}$ を設定して，形式的にp値を定義している．もちろん，実用上は，この $\{R_\alpha \}_{\alpha \in [0, 1]}$ をどのように設定するかという問題は残り，それらは別の場所で議論する必要があるだろう（ $\{R_\alpha \}_{\alpha \in [0, 1]}$ は，実用上では，検定問題で有意水準 $\alpha$ の棄却域と呼ばれているものに相当する．）．

帰無仮説の定義

p値声明（Wassrstein and Lazar 2016）では，「この不整合（incompatibility）は，帰無仮説もしくはそれが前提としている仮定に対する疑義を投げかけている，もしくは，それらに反する証拠を提供していると解釈できる」と述べられている．Start（2016）では，p値声明の説明では帰無仮説と仮定を分離している点を批判し，帰無仮説は「p値を計算するために必要な仮定のすべてが含まれている集合」だとしている．

例えば， $X \sim {\rm Bin}(n, p)$ の $p = 0.5$ に対してp値を求めるとしよう．このとき，通常の教科書（例えば，竹村本や久保川本）では，帰無仮説は「 $H_0: p = 0.5$ 」である．しかし，Stark（2016）の定義では，帰無仮説は「 $H_0: X \sim {\rm Bin}(n, 0.5)$ 」となるだろう．

Stark（2016）の定義に従った方が，p値によって非整合（incompatibility）が示唆された時の解釈は誤解が少なくなるように思える．

しかし，一方で，現在，普及している定義や考え方を変更する必要が出てくるだろう．

慣習的に，対立仮説としては帰無仮説の否定を用いることが多い．そして，特定の前提のもとで（かつ，必要な場合には不偏性などの制限を課したもとで）対立仮説が正しいときの検出力が高くなるような検定を探し出すのが，検定問題での王道であろう．先ほどの例では「 $H_0: p \ne 0.5$ 」を対立仮説とすることが多い．

一方，Stark(2016)の定義での帰無仮説の否定は，「 $H_1: Xは{\rm Bin}(n, 0.5)$ に従っていない」である．これは，p値声明の「非整合」を表現する言葉としては適切だろうが，検出力を計算するのは（二項分布でないものは無限に考えられるので）難しいと思われる．さらに，先ほどの例では，実用上において主に知りたいのは，（特定の前提で制約した上で），現在のデータが「 $H_0: p \ne 0.5$ 」を例証する証拠となり得ているかどうかであろう．二項分布に従っているかどうかの方に，あまり興味がないだろう（たとえば，実用上の研究疑問で，二項分布なのか，ベータ二項分布なのか，それとも違う分布族なのか，といったことに興味をもつことは少ないのではないだろうか）．

p値声明およびStark(2016)の定義では，いくつかの検定がもつロバスト性（頑健性）をうまく表現できていないように思う．p値を計算した時に用いたいくつかの仮定が成立していなくても，検定としては妥当な検定となることがある．つまり，同じp値もしくは近い値のp値となる仮定の集合がいくつか存在することがある．そのようなロバスト性も，どうにかして定義に含められないだろうか？（最初から「 $H_0: X \sim F, F \in \{ \mathbb{P} :$ 期待値が $0.5\}$ 」といった感じにセミパラメトリックやノンパラメトリックに帰無仮説を定義するのではなく，パラメトリックのもつロバスト性を帰無仮説で表現することはできないのだろうか？）*1

参考文献

Wasserstein, R.L. and Lazr, N.A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70(2), 129-133

Stark, P.B. (2016). The Value of p-Values, The American Statistician, 70(2), Supplemental Material [URL: https://doi.org/10.1080/00031305.2016.1154108]

*1:なお，p値声明が「特定の統計モデル」で注視したいことやStark(2016)が強調したいことは，このような技術的な点ではなく，もっと基礎的なことに言及しているのだろう．例えば，ウェブパネル調査から得られたデータに，単純無作為抽出に基づく統計的推測の枠組みを適用し，一般母集団に対する言明をするといったことに対する忠告なのだろうと思われる．