p値の説明

以下のp値に対する説明において,「」は米国統計学会のp値声明など(Goodman 2008, Greenland et al. 2016, Wasserstein and Lazar 2016)で間違いとされている説明です.「」は,その間違いを部分的に修正した説明になっています.徐々に,より穏当な説明となっています.

 

ケース1

☓「p値は,帰無仮説が正しい確率である」
☓「p値は,対立仮説が正しくない確率である」
「p値は,帰無仮説が正しいと仮定したもとで求めた確率である」

[解説]

帰無仮説が真であることを H_0,得られたデータを Dとすると,誤った説明ではp値を Pr(H_0 | D)と解釈している.頻度論でのp値は Pr(D | H_0)であり, Pr(D | H_0) \approx Pr(H_0 | D) は必ずしも成り立たない.「この袋のなかにある玉のうち5%は赤玉である」ことは,「世の中にある赤玉のうちの5%が,この袋のなかにある」ことを必ずしも意味しない.

 

ケース2

☓「p値が小さいほど,将来の実験において現在と同じ結果が再現される」
〇「p値は,現在のデータに対して計算される確率である」

[解説]

伝統的なp値の計算には,再現確率は考慮されていない.頻度論の枠組みでは,再現確率とp値とは関係が薄い.たとえば,帰無仮説(や他の前提)が真である場合,現在のデータから得られたp値がどんな値であっても,まったく同じ実験をしたときにp値が 0.05以下になる確率は, 5%もしくは5%以下である.
Fisher, R. A.(1935) "The Design of Experiments"(第8版ではpp.13-14)では,何度,実施してもp値が小さくなるような実験の手順を研究者が知っているときに,はじめて「実験的に例証できる」と言えるのであり,単独の実験でのp値で小さくなったことが重要なのではない,としている.

 

ケース3

☓「p値が小さいほど,現在の結果は外的妥当性がある」
☓「p値が小さいほど,現在の結果は内的妥当性がある」
〇「p値が小さいからといって,外的妥当性や内的妥当性があるわけではない」

[解説]

外的妥当性のための無作為抽出や,内的妥当性のためのランダム化は,p値を計算するモデルを設定するときの手助けになる.しかし,p値が小さいからといって,外的妥当性や内的妥当性が保証されるものではない.

 

ケース4

 ☓「p値は,データが帰無仮説を否定しているかどうかに関しての証拠の強さを示している」
〇「p値は,帰無仮説と現在のデータが食い違っている度合いを示す指標の1つである」

[解説]

「帰無仮説を否定しているかどうかに関しての証拠の強さ」という表現では, Pr(H_0 | D)を想起する人が多いだろう.実際には,p値は Pr(D | H_0)であるので,「帰無仮説を否定する証拠の強さ」という表現は誤解を生みやすい.
なお,ある特定の仮説とデータとの食い違いを見る指標には,いろいろある(例:尤度比,情報量規準,ベイズ因子,ベイズ事後確率など).p値は,いろいろある指標の1つに過ぎない.

 

ケース5

 ☓「p値は,偶然だけによって現在のデータが得られる確率である」
☓「p値は,帰無仮説のもとで,偶然だけによって現在のデータが得られる確率である」
〇「p値は,帰無仮説のもとで,現在のデータが得られる確率である」

[解説]

 p値は,帰無仮説が正しいという妄想のもとでのデータに対する確率である.「偶然だけによって得られる」/「偶然だけによって得られない」/「偶然以外によって得られる」...等々の説明に対する確率ではない.

 

ケース6

☓「p値は,帰無仮説のもとで,現在のデータが得られる確率である」
☓「p値は,帰無仮説のもとで,検定統計量が現在の値になる確率である」
〇「p値は,帰無仮説のもとで,検定統計量が現在の値以上の極端な値になる確率である」

[解説]

データと検定統計量を D T,その実現値をそれぞれ d tと表すと,間違った解釈は Pr(D = d | H_0) Pr(T = t | H_0)である.正しくは  Pr(T \ge t | H_0)である.p値の計算には,現在の状態だけではなく,それよりも極端な領域も含まれる.

 

ケース7

☓「p値は,帰無仮説のもとで, 検定統計量が現在の値以上の極端な値になる確率である」
〇「p値は,特定のモデルのもとで,検定統計量が現在の値以上の極端な値になる確率である」

[解説]

間違った説明では,p値を  p(T \ge t | H_0) としている.より穏当な解釈では,p値を  p(T \ge t | M_0) としている.ここで M_0は,特定のモデルを指す.p値の計算で「正しい」と仮定されるのは,帰無仮説だけではない.計算に用いる前提(これには帰無仮説も含まれる)のすべてが正しいものとされている.
たとえば,2標本t検定をセミパラメトリックな想定で行う場合,「2群における母平均が正しい」という帰無仮説のほかにも,「単純無作為抽出である(各観測値は,互いに独立である)」や「2群の母分散が等しい」などの前提も正しいものとしてp値は計算される.よって,小さなp値は,必ずしも「帰無仮説とデータが食い違っている」ことを示唆するのではない.「仮定したモデル(これには帰無仮説も含まれる)におけるどれかがデータと食い違っている」ことを示唆するのである.


補足1

上記の内容は,Goodman(2008), Greenland et al. (2016)および Wasserstein and Lazar(2016)で取り上げられているものを抜粋・省略したものです.

補足2

実際には,このような誤解をしている人は存在していないかもしれず,藁人形論法となっているかもしれません.

補足3

p値に対する解釈の正誤は,一律には決められません.議論を単純化して,独断と偏見でまとめています.

補足4

ここで述べたp値の説明は,現在,利用されているp値のすべてを網羅しているわけではありません.上記のp値の定義には,帰無仮説が点仮説ではない場合(たとえば,片側検定や同等性検定)は含まれていません.また,条件付き検定(たとえば,パラメトリックな前提に基づくFisher正確検定など)も含まれていません.

補足4

p値の計算式がまったく同じであっても,その導出方法はいくつもあることが多いです.たとえば,2標本t検定のp値は,

  1. 独立な同一の正規分布に従う確率変数(パラメトリックな検定)
  2. 平均および分散が同一であり,かつ,独立である確率分布に従う確率変数(セミパラメトリックな近似検定)
  3. 独立な同一の確率分布に従う確率変数(ノンパラメトリックな近似検定)
  4. 「現実世界と仮想世界で応答値が等しい」という仮定のもとで並び替えしたもの(ノンパラメトリックな近似並び替え検定)
  5.  Y_1 | (\mu, \sigma^2, \delta) \sim N(\mu, \sigma^2) Y_2 | (\mu, \sigma^2, \delta) \sim N(\mu+\delta, \sigma^2),かつ,事前分布が f(\mu, | \sigma^2) \propto const. f(\sigma^2) \propto \frac{1}{\sigma^2}であるときの, Pr(\delta \gt 0 | D) Pr(\delta \lt 0 | D)ベイズ流片側検定での事後確率)

...等々のいずれの前提でも導出できます.ここでは5.のようなベイズ流の解釈は採用しませんでした.

 

引用文献

Goodman, S. (2008), A Dirty Dozen: Twelve P-Value Misconceptions, Seminars in
Hematology, 45, 135–140.

Greenland, S., Senn, S.J., Rothman, K.J., Carlin, J.B., Poole, C., Goodman, S.N. and
Altman, D.G.(2016) Statistical Tests, P-values, Confidence Intervals, and Power: A
Guide to Misinterpretations, The American Statistician, 70, Online supplement to the ASA Statement on Statistical Significance and P Values 

Wasserstein, R.L. and Lazar, N.A.(2016)
The ASA's Statement on p-Values: Context, Process, and Purpose
The American Statistisian, 70(2), 129-133