人生はp値だ 〜 Life is Peachy 〜

このブログ記事では,2016年のp値声明(Wasserstein and Lazar, 2016)のオンライン付録に掲載された意見の1つであるSenn(2016)をもとにして,世間で抱かれているかもしれない印象の a) と c) を弱めることを試みる.

 

  • a) Fisherの登場により,それまでに普及していたBayes流事後確率が撲滅され,頻度主義に基づく計算方法にとって変わった.
  • b) その後,Savageなどの新Bayes主義が登場したが,Fisherによりずっと迫害されてきた.
  • c) 頻度主義をなくして,Bayes流にすればp値の問題は解決する.

 

b)については,<Fisherが(少なくとも1930年頃以降で)批判していたのは,一律に事前分布に一様分布を設定することだったのだろう>という主張を,以下のブログ記事に記載したので,興味がある方はご一読ください.

Bayesの卵を割らずにBayes流オムレツを作る?? 〜1930年論文で読む信頼区間 vs 推測区間〜 - Tarotanのブログ

 

上記a),b),c)のようなイメージを持っている人は一人もいないかもしれないので,藁人形論法になっているだろうが,そういう人がいるものと仮定してこの記事では話を進めていく.

王立統計学会が2016年に行ったp値声明に関するセッションのYouTube動画を最近になって見て,Senn先生とJohnson先生の見解に大きな違いがあり,それが2024年現在でも解決していないように思えた.

ASA statement on P-values and statistical significance: Development and impact - YouTube

このブログ記事で両者の見解の違いに対する理解が深まれば幸いである.

 

さらに,この動画での質疑応答でD.R.Coxが述べた意見について,特に6章で私なりにまとめてみた.このブログ記事により,p値に対して,また,p値に対する喧嘩に対して,これまでと異なったイメージが広がることを期待している.

 

1. 私はp値のためのp値(Impeach for Peach

p値はこれまで何度にも渡り弾劾されてきたが,2016年のp値声明(Wasserstein and Lazar, 2016)はここ20年ぐらいのなかではもっとも多くの人に届いた批判ではないかと思う.その批判点を便宜的に次の2つに分類しよう.

 

  • (あ)p値は誤用・誤解されている.p値の真の姿を理解すれば,その誤用・誤解は無くなる.吾輩が本物のp値をお見せしよう.
  • (い)p値は間違っている.吾輩が,代替策となる本物の方法をお見せしよう.

 

p値声明には6つの項目がある.その6つの項目を上記の2つのいずれかに分類すると,項目1から5までは,上記の(あ)であるp値の誤用・誤解に対する啓蒙的な批判に相当するだろう.最後の項目6は,上記の(い)であるp値そのものが持つ問題を指摘となっているだろう.また,p値声明における4節の"Other Approaches"も(い)に分類できるだろう.なお,p値声明は上記のような喧嘩腰の強い主張ではなく,非常に柔らかな言い回しである.そのため,やや強引な分類である.

 

まず,p値声明の2つの問題点を指摘したい.

  • 第1に,D.R.Coxが指摘するように,p値や検定の多様性を無視している.p値や検定は,いろいろな人がいろいろな場面で用いているのであり,何か単一の絶対的な定義・用途があるのではないと思う.p値や検定の多様性については,6節で後述する.
  • 第2に,p値声明の内部的な整合性に関して,p値声明の項目1と項目6は,粗く読むと,一瞬,矛盾しているように私は思える.

 

第2の問題点について詳しく述べよう.p値声明(Wasserstein and Lazar, 2016)の項目6では次のように,p値単体ではモデルや仮説に関する良い証拠にはなり得ず,他の方法のほうが良い場合もあるかもしれないと述べている.

6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis
....[省略]... For these reasons, data analysis should not end with the calculation of a p-value when other approaches are appropriate and feasible. [...省略...]

 

一方,項目1では,

1.P-values can indicate how incompatible the data are with a specified statistical model

A p-value provides one approach to summarizing the incompatibility between a particular set of data and a proposed model for the data. [...省略...]

と述べている.

めちゃくちゃ粗く読めば,p値は,項目1では<ある1つの特定の統計モデルとデータとの不整合を表す指標である>と言いながら,項目6では<モデルや仮説に関する証拠の良い指標でない>と言っているように読めてしまう.そのため,項目1では<p値は証拠となりうる>と言っていて,項目6では<p値は証拠にはなりえない>と矛盾していることを言っているように読めてしまう.

実際には,少し落ち着いて読めば,項目1では「[指標はいろいろあるが]指標のひとつ」と断っていて,項目6では「p値単体では」と限定しているので,矛盾してはいない.

しかし,この項目6に基づき,p値声明のオンライン付録に掲載された意見の1つであるJohnson(2016)では,点帰無仮説に基づくBayes検定から,有意水準5%で有意となったとしても,それは非常に弱い証拠にしかなり得ないというp値批判を展開している.例として,

 X_1, \dots, X_n | (\mu, \sigma)  \sim \ \ iid \ \ N(\mu, \sigma)

 \sigmaは既知

 Pr(\mu  = 0|H_0) = 1

 \mu|H_1 \sim \ \ g(\mu|H_1)

 Pr(H_0) = Pr(H_1) = 0.5

という設定のもとで,頻度主義的な統計的検定でp値がピッタリ0.05になる時の Pr(H_0| {\bf X}) が取りうる最大値を計算している.その最大値は,頻度主義的な検定が両側検定で,上記の事前分布 g(\mu|H_1)を対称分布に限定すれば, Pr(H_0| {\bf X}=0.227]程度である.一応,この値を求めるRコードを示しておく,なお,n\sigmaは計算に用いてるが,最終的な結果はn\sigmaに依存しない.

n <- 100

sigma <- 20

alpha <- 0.05

prob_H0 <- 0.5

z <- qnorm(1-alpha/2, 0, 1)

 

likelihood0 <- dnorm(z*sigma/sqrt(n), 0, sigma/sqrt(n))

likelihood1 <- dnorm(z*sigma/sqrt(n), z*sigma/sqrt(n), sigma/sqrt(n))

prob_H0_given_x = likelihood0 * prob_H0 /(likelihood0 * prob_H0 + likelihood1*0.5*(1 - prob_H0))

print(prob_H0_given_x) 

この結果を重視する人々は,<この 0.227は直感的に見て大きすぎるから,有意水準5%で有意となったとしても,それは非常に弱い証拠にしかなり得ない>という理屈によって,有意水準5%を閾値として判断することに対する批判を展開しているのだろう.Benjamin et al (2018)では,この理屈を根拠のひとつとして(またおそらくは現状に対する応急処置として),有意水準を5%ではなく,0.5%にしようという主張を行なっている.

性急にp値声明を読むと,その内部で矛盾した助言をしているようにも読めるだろう.

 

2. Chi

これまでp値はいくどに渡り弾劾されてきたが,そもそもp値とはなんだろうか? 6節にて後述するように,おそらくは3つ程度の定義があり,その用途も多岐に渡る.まずは,以後の2節から5節まででは,歴史的な変遷をざっと見ていくことにしよう.

Hubbard(2011)では,次のように,p値の始まりはKarl Pearsonのカイ2乗適合度検定だと述べられている.

The origin of the p-value is credited to Karl Pearson (1900), who introduced it in connection with his chi-square test (see Chi-Square Tests). However, it was Sir Ronald Fisher who popularized significance tests and p-values in the multiple editions of his hugely influential books Statistical Methods for Research Workers and The Design of Experiments, first published in 1925 and 1935, respectively.

しかし,少なくとも数値的には,p値と同じもの,もしくは,p値と近い値になるものは,Karl Pearsonののカイ2乗適合度検定の前にも存在していた.

 

3. 都市部における性別(Sex and the City*1

Arbuthnot(1710)

世界で最初に公式に行われた統計的検定はArbuthnot(1710)であろう(▪️)とすることが多い.Arbuthnot(1710)では,現世にある神の恩寵の証拠として,出生数において82年に渡り男性の方が女性の方よりも多いことを取り上げ,もし,男性と女性の生まれる確率が50:50であれば,それが生じる確率が

   1 / 4 8360 0000 0000 0000 0000 0000

であるとして(Pythonで2の82乗を計算すると4 8357 0327 8458 5166 9882 4704),この現象は神が残した印であろうと結論づけた.

 

なお,Senn(2003, pp.31-32)では,このArbuthnot(1710)の統計的検定が抱える内在的な問題を挙げている.「82回中82回だけ表が出る」というのは最も極端な現象であり,もし,例えば「82回中81回だけ表が出る」や「82回中80回だけが出る」という結果ならどうしたらいいのか? そこに注目すると,Arubthnotは単に尤度を計算したかもしれないからである.例えば,実際の現象が「82回中81回だけ表が出た」というもので,Pr(Y=81|\pi=0.5, n = 82) + Pr(Y=82|\pi=0.5, n = 82) という計算をしていたのであれば,それはp値を計算していたと言えるだろうが, Pr(Y=82|\pi=0.5, n = 82)というものがp値であるとは断言できないだろう.

そういった疑問は残るものの,これをp値だとしても,そして,p値そのものが妥当な指標であったとしても,いろいろと疑問は残る.何よりも,50:50で生じると考えると非常に珍しい現象が起きたとしても,その現象が神が現世に残した足跡なのだとするのは私は賛同できない.1節で述べた(い)の批判ができないとしても,(あ)の点からp値の誤用だと指摘することはできるだろう.

 

Bayes(1763)

Bayes(1763)は,Karl PearsonやFisherが取り上げたことにより,Baeys統計学やBayesianの名前の由来となっている論文だろうが,見方によってはこの論文にも頻度主義的なp値の源泉を見ることができる.

Bayes(1763)の原論文は記号や説明が複雑すぎて私は読めないのだが,Dale(1991:2nd ed.)のp.39によると,命題10では,一様事前分布および二項分布尤度を仮定したときの,確率パラメータの事後分布が導出されているらしい.現代風に書くと,次のように書けるだろう.

 

モデルの設定

 \pi \sim {\rm Unif}(0,1)

 X|\pi \sim Bin(n, \pi) , nは既知.

計算したいもの

 Pr( a \lt \pi \lt b | x) = \frac{\int_{a}^{b} \pi^{(k+1)-1} (1-\pi)^{(n-k+1)-1} d\pi}{\int_{0}^{1} \pi^{(k+1)-1} (1-\pi)^{(n-k+1)-1} d\pi}

 

こうして計算された値のうち,例えば, Pr( 0.5 \lt \pi \lt 1 | x)という事後確率は,頻度主義での二項検定での片側検定(帰無仮説 H_0: \pi = 0.5もしくは H_0: \pi \gt 0.5に対する検定) のp値に近い.例えば,次のようなRコードで,両者の近さは確認できる.

n <- 250

x <- 110

pi <- 0.5

pbin <- pbinom(x, n, pi)

print(pbin)

pbeta <- pbeta(pi, x + 1, n - x + 1, ower.tail=FALSE)

print(pbeta) 

 

Bayes流事後確率は約0.0332であり,頻度主義流p値は約0.0290である.

この例では,ベータ分布の第2パラメータを, n - x + 1から n - xに1だけ減らせば,両者はまったく同じ結果(約0.0332)となる.

 

pbin2 <- pbeta(pi, x + 1, n - x, , lower.tail=FALSE)

print(pbin2) 

後述するように,このように単純な尤度モデルで大標本の時に,一様事前分布を仮定したBayes流片側事後確率と,頻度主義流のp値が近い結果となるのは,歴史的に見れば,単なる偶然ではないと思われる.大標本で両者が近い結果となるのは,<最尤推定での近似計算自体は,それ以前に普及していた一様事前分布からの事後分布のLaplace近似とまったく同じ計算が使われていて,最尤推定は単にBayes流枠組みにおける解釈だけを変更したのにすぎない>という歴史的な事情によると思われる.Senn(2016)によると,<Fisherは,1910年代から1920年代以前に行われていた一様事前分布に基づくBayes流の計算を否定したのではなく,まったく同じ計算にBayes流ではない別の解釈を与えただけにすぎない>という.つまり,最尤推定は,その始まりにおいては,同じワインが別のラベルで売られたにすぎない.

 

まったくの余談だが,この二項分布とベータ分布の関係は,教科書では部分積分によって導出されることが多いが,一様分布を間に挟むとわかりやすい.いま,

 U_1, \dots, U_n \sim iid \ \ {\rm Unif(0,1)}

とする.この時, U_1, \dots, U_nのうち \pi以下となるものの個数は,二項分布 {\rm Bin(n, \pi)}に従う.一方,この個数が[tex: k以下となるのは,小さい方から数えてk+1番目の順序統計量 U_{(k+1)} \piより大きくなっている場合でる. U_{(k+1)}はベータ分布{\rm Beta}(k+1, n - k)に従うので,pbinom(k, n, pi)は, pbeta(pi, k + 1, n - k + 1, lower.tail=FALSE) と等しい.

 

ちなみに,先ほどのArbuthnot(1710)のデータでは,頻度主義的な片側p値が Pr(X \lt 0|\pi = 0.5, n = 82) = 2.067952 \times 10^{-25}であり,Bayes流の片側事後確率が Pr(\pi \gt 0.5|X = 0, n = 82) = 1.033976 \times 10^{-25}である.

 

Laplace(1812)

Laplace(1812)では,男性の出生数が女子の出生数を上回る割合ではなく,男女の出生数そのものをもとに事後確率の計算が行われている(伊藤・樋口訳, pp.344-348).次表のデータをもとにしている.

場所

男性出生数

女性出生数

収集期間

パリ

393386

377555

1745年初めから1784年末まで

ロンドン

737629

698958

1664年初めから1758年末まで

ナポリ王国

782352

746821

1774年初めから1758年末まで

ヴィトー(Vitteaux)

203

212

5年間

 

このうち,パリとヴィトーに関しては,実際に数値として事後確率が求められている.パリの事後確率は(最終的な結果ではなく)次式が示されていて,(女性が生まれる二項確率が0.5以上となる事後確率)を計算すると 5.590929 \times 10^{-73}である.なお,私自身は,Laplace(1812)で使われている近似式は理解ができていない.

log10mu = 72.2511780

print(1/10^(log10mu) * (1 - 0.0030761))

Rで事後確率および求めてみると, 5.592801 \times 10^{-73}である.二項分布に基づく片側検定のp値は, 5.707999 \times 10^{-73}であった.

x <- 377555

y <- 393386

n <- x + y

pi <- 0.5

pbin <- pbinom(x, n, pi)

print(pbin)

pbeta <- pbeta(pi, x + 1, n - x + 1, lower.tail=FALSE)

print(pbeta)  

一方,ヴィトーに対してLaplace(1812)で計算された結果(女性が生まれる二項確率が0.5を超える事後確率の値)は0.67であった.Rで求めると,Bayes流の片側事後確率は0.6704622であり,また,二項分布に基づく片側検定のp値は0.688218である.

x <- 212

y <- 203

n <- x + y

pi <- 0.5

pbin <- pbinom(x, n, pi)

print(pbin)

pbeta <- pbeta(pi, x + 1, n - x + 1, lower.tail=FALSE)

print(pbeta)  

これら2つの例でも,頻度主義的な片側p値と,Bayes流の片側事後確率とは近い値となっている.

Laplace(1812)では上記のデータに対して,さらに,パリとロンドンで男性出生確率を比較するための「検定」を行なっている(pp.348-350).

モデルの設定

 \pi_1, \pi_2 \sim iid \ \ {\rm Unif}(0,1)

 X_1|(n_1, \pi_1) \sim {\rm Bin}(n_1, \pi_1),  n_1は既知

 X_2|(n_2, \pi_2) \sim {\rm Bin}(n_2, \pi_2),  n_2は既知

 

計算したいもの

 {\rm Pr}(\pi_1 \lt \pi_2|(x_1, x_2))

 

Laplace(1812)では,上記の近似値を  1/328269 = 3.046282 \times 10^{-6}としている.

Rなどには数値積分のルーチンが用意されているので,現在では比較的,簡単に計算できそうであるのだが,以下にintegrate関数を2重に回したのでは,精度よく計算が行われなかった.

x1 <- 377555

y1 <- 393386

x2 <- 698958

y2 <- 737629

f1 = function(pi2) {   integrate(function(pi1) {dbeta(pi1, x1 + 1, y1 + 1) * dbeta(pi2, x2 + 1, y2 + 1)}, 0, pi2)$value }

res1 = integrate(Vectorize(f1), 0, 1)$value print(res1) 

上記の数値演算で精度のよい結果が得られなかったのは,結果がかなり0に近いためだと思われる.何か工夫すれば数値積分を改善できるのかもしれないが,ここでは,上記の積分と超幾何分布との関係を用いて算出することにしよう.上記の積分は,次のように x_1 y_1に足した時の超幾何分布の累積確率 {\rm Pr}(X_2 \lt x_2| n_1, n_2, x_1 + x_2)で求められる.

x1 <- 377555

y1 <- 393386

x2 <- 698958

y2 <- 737629

p_fisher <- phyper(x2, x2+(y2+1), (x1+1)+y1, (x1+1)+x2)

print(p_fisher) 

これも二項分布とベータ分布との関係と同様,一様分布を介せば,少しややこしいが,比較的,容易に導出できる.ここでは,その説明は省く.

こうして求めた事後確率は,  3.045772 \times 10^{-6}である.

 

Fisher正確検定は得られた度数そのものを用いて計算したものであるので,もし度数が大きければ,上記の事後確率とほぼ同じになる.また,度数が大きい場合,Fisher正確検定は,二元度数表に対するPearsonカイ2乗検定の結果と同じになる.今回の場合も,Rで計算すると,かなり近い結果になっていることが分かる.

p_fisher <- phyper(x2, x2+y2, x1+y1, x1+x2)

print(p_fisher)

#3.066284e-06

 

rst <- chisq.test(as.table(rbind(c(x1,y1), c(x2,y2))), correct = FALSE)

print(rst$p.value / 2)

#3.044973e-06 

 

つまり,Laplaceが行った「検定」は,Laplaceが扱ったデータの標本サイズが大きいこともあり, 2\times2表のカイ2条検定やFisher正確検定と数値的にはほぼ同じである.

 

20世紀初頭のBiometrika

Arbuthnot(1710)やLaplace(1812)では,「p値」の計算が行われていたと言える.そこでのp値は,0.001をはるかに下回る小ささであった.時が流れて19世紀から20世紀に入ると,優生学の調査が広まり,大雑把にいうと100から2,000ぐらいまでの標本サイズで,しかも,より小さな差が話題となる.さらに,測定しまくったこともあり,1つの論文で比較する特性値(例えば,身長,キュービット,頭蓋骨の周囲などなど)も増えていった.そして,「有意かどうか」を判断する方式が,20世紀初頭にはBiometrikaを中心に広まっていた.

ただし,そのときの方式としては,すべての比較について,いちいちp値を求めておらず,probable errorの何倍かで判断することが多かった..

現在,確率変数のばらつきを表す指標としては,標準偏差が使われていることが多いだろう.しかし,20世紀のごくはじめの優生学研究では,特に正規分布に従う確率変数のばらつきを表す指標としてprobable error (PE)が使われていた. 1 PE  = 0.6745 SDである.

Karl Pearsonの提案により,ほぼ確実に有意か(almost certain significance),そうでないかを区別する閾値として,PEの3倍という閾値が使われていた.なお,大雑把に言って, 3 PE \approx 2 SDである.以下の引用(Punnett,1904)は,Biometrikaで3PE閾値を説明している例である.

Professor Pearson to whom I am indebted for this statement considers odds less than those corresponding to twice the probable error as not definitely significant, with odds corresponding to twice up to thrice the probable error we have probable significance, and with more than three times the probable error there is almost certain significance. Of course a difference less the probable error does not prove that the difference is insignificant, it may merely indicate that the statistics are insufficient in number to adequately distinguish significant differences. Again, persistent differences of the same sign, when each difference in even less than the probable error, increase the odds in favour of a general significance.

 

必ずしも,どの論文でも3PEを閾値として使っているわけではなかったが,Fisherが1925年に出したハウツー本(Fisher 1925)では,両側5%という閾値を1つの便宜的な目安として提案した際.<正規分布での3PEは2SDに近く,2SDは両側5%に近い>と述べている.

 

 4. 漁師の紅茶検定(Fisher’s t-test and Tea-Test)*2

Fisherは1925年にハウツー本(Fisher 1925)を出版しているが,そこでt検定を解説している.t統計量の確率分布がt分布になると予想したのは,Student(1908)であった.その予想を幾何学的なイメージにより,証明したのがFisherであった.Senn(2015)によると,同じt検定であっても,Student(1908)ではBayes流に解釈が行われ,Fisher(1925)では頻度主義流に解釈が行われているのだという.

なお,平均の比較では,大標本の場合(かつ,2群比較のときは,標本分散が2群でほぼ同じか,標本サイズが2群でほぼ同じである場合は),t検定のp値は,正規近似におるz検定のp値と似た結果となる.一方,3PEは両側有意水準5%に対応しているので,t検定とK. Pearson方式の間に,数値計算と導かれる結論ではほぼ違いはない.両者で違うのは,あくまでその計算を導出したときに用いた前提だけである.

Fisherは,1935年にもハウツー本を出している(Fisher 1935).同書の第2章では,紅茶の実験(おそらく実際に該当の実験が行われたわけでなく,説明上で用いた架空の話)が例として挙げられている.そこではランダム化実験の検定として,Fisher正確検定が紹介されている.

t検定や,Fisher正確検定になると,数値例で挙げられている標本サイズもずっと小さくなり,n = 10とかn = 8ぐらいになる.これぐらいの小標本だと,尤度モデルが単純なものであっても,一様事前分布から導かれる片側事後確率と,頻度主義流の片側p値は数値的にもある程度大きく異なってくる.

 

 5. あくまでラプラスLaplace’s demon)

Fisherが1922年に公表した「理論統計学の数学的基礎」(On the Mathematical Foundations of Theoretical Statistics)(Fisher 1922)では,尤度や最尤法の解釈が述べられている.それ以前にも尤度や最尤法にFisherが言及することはあったが,Fisher(1922)ではそれまでの考えがまとめられあげている.

まず,Fisherがわざわざ「尤度」という言葉を用いたのは,「確率」と区別するからである.それまでは,一様事前分布の仮定のもと,

 f({\mathbf \theta}|{\bf x})  \propto f({\bf x}|{\mathbf \theta})

とみなして,尤度を事後確率密度(に比例したもの)とみなしていた.

一方,Fisher(1922)では,事前分布を設定しないでも帰納的な推測を行えるように,同一の仮想的無限母集団からの無作為抽出という前提を設定した.この設定のもとでは,f({\bf x}|{\mathbf \theta})]を\thetaの関数とみなしたf({\mathbf \theta}|; \bf x})]は,\theta確率密度関数がもつような性質を持たない.例えば,排反な事象A,Bに関して.「AもしくはBの尤度」は,「Aの尤度」+「Bの尤度」とはならない.

1930年になってfiducial intervalの議論をするまでは,Fisherは「パラメータに関しては確率的な言明は行えない」という立場であった.この立場は1930年以降に変わるのが,1920年代では,事前分布を設定しないような枠組みでは,尤度が推測の基礎になるが,その尤度は確率の性質を持たないという考えであった.

そこだけ見ると大きな違いだが,実際の数値計算の結果に関して言えば,大標本での近似に関してはまったく計算が使われる.そこまででは,Bayes推定での事後分布を求めるには,Laplace近似が使われていた.一様事前分布を仮定してLaplace近似を使ったものは,最尤推定でのWald近似とまったく同じである.Fisher(1922)が行ったのは,それまでの一様事前分布に基づくBayes流推測に対して,計算方法を変えずに,一様事前分布を仮定しないで済む形で,また,より自然な形で,別の解釈を与えただけにすぎない.

もちろん,小標本になると,両者の結果は大きく違ったものになる.(注:もちろん,小標本になると,もし近似を使うのであれば,Bayes流にしろ,頻度主義にしろ,採用する近似方法によっても,大きく違ったものになる.Bayes流の場合には,小標本の場合には,設定する事前分布でも大きく違うだろう.) しかし,最初の出発点は,同じワインに異なったラベルを与えただけと言えるだろう.

 6. 人生いろいろ,p値もいろいろ

6.1 p値に対する3種類の定義

ここまで,p値が何であるかを定義せずに,話を進めてきた.ここでは,便宜的に3つに分けて,p値を定義しよう.

  • 1)  ある特定の1つのモデルのもとで,ある統計量が,現在の統計量の実現値以上に極端になる確率
  • 2) 特定のパラメータ空間に属するパラメータで表されるモデルたちでの上記1)の確率の最大値
  • 3) 有意水準\alphaの検定における棄却域を R_\alphaと表す. \alpha_1 \lt \alpha_2である任意の有意水準tex: \alpha_1, \alpha_2]について棄却域がR_{\alpha_1} \subseteq R_{\alpha_2}となっている場合での \inf\{\alpha | x \in R_\alpha\}

 

1)の定義は,おそらくハウツー本などを始め,最もよく見られる定義である.p値声明(

Wasserstein and Lazar,2016)ではp値の厳密の定義は述べられていないが,「砕けて言うと」("informally")と断って,この1)の定義が紹介されている.

2)の定義は,例えば,竹村(2020:新装改定版,p.168)や久保川(2017:p.164)に近いものが見られるが,それらはほぼ3)に近い.

3)の定義は,Lehmann and Romano(2022:4th ed. p.69)で見られる.

これら3つの定義は,状況によっては異なるものになるが,状況によってはまったく同じものになる.

1)の定義は最も分かりやすいが,3つの問題を抱えている.

第1に,この定義からは「統計量」としてどのような統計量を用いるべきか分からない.

第2に,この定義からはどちらの方向や領域が「極端」であるかが分からない.Fisherは,おそらく,「統計量」としては最小十分統計量を用いて,そして,どちらが極端かは,それはp値を求める研究者が知っているという考えだったのだろう.

第3に,例えば帰無仮説が複合仮説である場合など,モデルが1点で表されていない場合,この定義だとp値は計算できない.この定義は,モデルが1つの特定のものに固定されている必要がある.

Cox and Hinkley(2000,5.1節)によると,帰無仮説が複合仮説となる場合には,主に3つの状況がある.

  • ① 興味があるパラメータに対する帰無仮説が1点でない場合.例えば,同等性検定で,帰無仮説 H_0: \mu \lt -2 \ {\rm or} \ \mu \gt 2などとなっている場合
  • ②局外パラメータがある場合.例えば, 分散が未知で H_0: \mu =5, \forall \sigma^2のような場合.
  • 帰無仮説が,特定の確率分布全体を表している場合.例えば, H_0: 「正規分布に従っている」といった場合.

このうち①については,おそらくFIsherは,もし帰無仮説が点で表されていないのであれば,それは検定の問題ではなく,信頼区間(Fisherではfiducial interval)の問題だとみなしていたのだろう.②については,枢軸量や条件付けなどを用いて解決しようとしたのだろう.

いずれにしても,1)の定義では,これら3つの問題が生じる.

このうち,2番目の定義は,1番目の定義における第3の問題(複合帰無仮説の時に困るという問題)に部分的には対応している.

第3の定義は,どういった「統計量」を用いるか,どちらの方向のどの領域が「極端」なのか,複合仮説のときにどうするか,といった問題を,先送りして,「仮説検定」の領域でそれらを解決してもらおうとする.つまり,まずは仮説検定として良いものを導出した後に,その仮説検定の棄却域に従って,p値を定義する.

なお,第3の定義では,確率化を伴う検定(特に離散分布の時にサイコロを振って有意かどうかを決める検定)では,p値を定義できない. \alpha_1 \lt \alpha_2である任意の有意水準 \alpha_1, \alpha_2について棄却域がR_{\alpha_1} \subseteq R_{\alpha_2}となっていないからである.

ちょっとあやふやだが,複数の異なる実験があり,どの実験を行うかをサイコロで決める場合(例えば,コインを投げて,表なら標本サイズ100で製品Aの加速寿命試験をして,裏なら標本サイズ30で製品Bの劣化試験を行うなど)も,第3の定義でp値を定義するのは面倒そうである.そのような実験では,第1や第2の定義でも,その定義通りに従えば,p値を求めるのは面倒なのだが,特に第1の定義では,行った実験だけに限定してp値を求めるのが慣例であり,その場合は比較的,p値の計算は簡単である.

このようにp値は,定義にもいろいろある.そして,それらはいくつかの状況では同値である.しかし,同値であったとしても,例えば,1番目の定義を強調すると,<p値は,モデルとデータとの不整合を測る指標の1つ>のような解釈を好むことになるだろう.一方,3番目の定義を強調すると,<p値は,有意水準が異なる人々がいても,有意/有意じゃないという判断を可能にする指標>というような解釈を好むことになるだろう.

6.2 p値の仲間たち

前節6.1で定義したp値以外にも,いろいろな仲間がある.Bayes流p値,mid-p値,FWE調整p値,FDR調整p値などである.ここでは扱わない.

 

6.3  Cox(2006)での帰無仮説の分類

Nuzzo, R., Johnson, V. and Senn, S. (2016)での質疑応答にてD.R. Coxが指摘したp値声明の批判は,<検定にはいろいろあって,いろいろな使われ方をしているのに,p値声明はそれを無視している>ということだとたぶん思う.

Cox(2006,pp.30-31)では,どんなものが帰無仮説になるかとして,次の6つを挙げている.

  • 強く否定したい仮説を帰無仮説とする.
  • 仮説そのものには興味はないが,その仮説値を境目にして興味のある領域に分割される場合.例えば,H_{01}:\beta \lt 0H_{02}:\beta = 0H_{03}:\beta \gt 0という3つの仮説に興味がある場合に,H_{02}:\beta = 0帰無仮説とする.
  • 単に信頼区間を求めるためだけに,技術的・便宜的に帰無仮説を連続的に設ける.
  • 複雑なモデルを単純化することにより得られる説明しやすいモデルを帰無仮説とする.
  • より複雑なモデルが単純なモデルからの逸脱を示している時,その単純なモデルを帰無仮説とする.
  • ある1つのモデルしか定義されていないが,そのモデルからの逸脱が懸念される場合に,そのモデルを帰無仮説とする.

2番目の問題は,「多重決定方式」や「(パラメータ空間の)分割 partitioning」などと呼ばれている問題である.

 

6.4  母集団モデル vs 無作為化モデル

Lehmann(2022:4th ed.,p.150の脚注11)では,検定の前提となるモデルを,次の2つに分類している

  • 母集団モデル
  • 無作為化モデル

心理学実験や臨床試験は,その試験では,目標母集団の抽出枠からの無作為抽出はまず行わない.しかし,一方で,無作為割り付けは行うことが多い.その点で,母集団モデルよりも,無作為化モデルの方が相性がいいのではないかと私は(私も)思うのだが,無作為化モデルの枠組みはそれほど浸透していない.

6.5  竹村本

竹村(2020:新装改定版,pp.161-162)では,「帰無仮説の意味あい」について,次の3つを紹介している.

  • データによって反証したいことを帰無仮説とする場合.例えば,「プラセボよりも新薬の方が薬効がある」を主張したいために,「新薬よりもプラセボの方が薬効がある」を帰無仮説とする場合.
  • 正常な状態や通常の状態を帰無仮説とする場合.例えば,製造業での工程管理での管理図において,統計的管理状態にあることを帰無仮説とする場合
  • ある統計モデルにおいてもし成立しているとその後の諸々の導出や取り扱いが簡単になる前提を帰無仮説とするもの.例えば,「確率変数が正規分布に従っている」などを帰無仮説とする場合

 

6.6  久保川本

久保川(2017,p.116)などでは,統計モデルにおける分類として,次の3つに分けるものを紹介している.

 

6.7  その他の分類

他にも,有名な分類としては,Fisher有意性検定とNeyman仮説検定という分類や,また,頻度主義 vs Bayes主義といった分類もある.それらは省略する.

 

7. 嫉妬(Statistical Hypothesis Inference Testing)

6節で述べたように,実際には統計的検定にはいろいろなものがあり,いろいろな用途がある.その多様性に対して,特にp値声明の前まで,ハウツー本のなかでは,あたかも,統計的検定について唯一無二の定義があるかのように扱われてきたのではないかと思う.

Gigerenzer(2004)の見立てによると,(主に心理学の分野では)次のような手順の統計的検定が普及していったのだという.

  •  帰無仮説としては,「平均差が0」や「相関が0」などのゼロ帰無仮説を立てる.対立仮説は立てない.
  •  αは,常に0.05として判断する.もし有意ならば,研究仮説が正しいとする.p < 0.05, p < 0.01, p < 0.001というラベルを付ける.
  • 常に,この手順を踏む.

Gigerenzer(2004)は,このような手順は,匿名化(誰がいつどこで提案されたかを述べない)されており,実際にはFisherとNeymanとの間に激しい口論があったのだが,それらがなかったものとして無視して,悪い意味で,自分の都合のいい箇所だけを折衷(ハイブリッド)して組み合わせたという.

もちろん,検定を機械的にルーチンで用いることに対して,Gigerenzer(2004)の前にも批判はあった.有名な批判としては,Cohen(1994)がある.Cohen(1994)では,「平均差がゼロ」や「相関がゼロ」の仮説は,「ゼロ仮説」(nil hypothesis)と呼ばれており,また,心理学分野で普及している検定手順(もしくは,その当時,普及していた検定手順)を,帰無仮説有意性検定(NHST: Null Hypothesis Significance Test)と読んだ.おそらく,このCohen(1994)の論文が「NHST」の初出だと思うが,以後,有意性検定や仮説検定を批判する時には,この「NHST」という用語が使われるようになった.Cohen(1994)より前にも,遡ればいくつも批判はあるだろうが,この記事では言及しないことにする.

 

しかし,少し考えただけでも,Gigerenzer(2004)やCohen(1994)の批判が当てはまらない利用例も沢山あるだろう.

有意水準を5%としない状況として,以下のような例が考えられる.

  • Senn(2007:2nd ed.,p.188)が指摘しているように,医薬品開発のICH E9では有意水準として「慣例的に、第一種の過誤は5%以下 に設定され(ICH, 1998日本語訳) と述べられているが,これは両側5%であり,例えばプラセボの方が試験薬よりも買っていて両側5%で有意だったとしてもダメだろうから,実際の有意水準は2.5%である.さらに,Senn(2007:2nd ed., p.188)の指摘によると,独立な試験で2回パスしなければいけないという,薬効評価に対する米国の「2試験ルール」(two-trial rule)の場合には,実際の有意水準は0.025の2乗となる.
  • 管理図では,5%閾値ではなく,3σルールが使われることが多い.なお,管理図では,「有意」でなければ正常とみなし,「有意」であれば何かしらの異常が生じたと判断する.
  • 回帰分析における変数選択において検定を使うときには,伝統的に,有意水準は15%や20%といった大き目のものが使われる.

 

また,ゼロ帰無仮説としない例として,次のような例が考えられる.

  • ICH E9での非劣性試験や同等性試験ではマージンがあり,ゼロ帰無仮説ではない.
  • 社会学での重回帰分析では,実用上は,符号を決めるために検定をすることが多いだろう.つまり,計算自体はH_0:\beta = 0というゼロ帰無仮説とした両側検定かもしれないが,解釈上は, H_{01}:\beta \lt 0H_{02}:\beta = 0H_{03}:\beta \gt 0という3つの仮説を同時に検定していると言える.
  • 管理図などでは,統計的管理状態が帰無仮説となっているが,それはゼロ仮説ではない.例えば,ある部品の直径における目標値が1.25mmの時,統計的管理状態では母平均が1.25mmになっているのが理想だろう.

D.R.Coxが言うように,統計的検定の用途は沢山あり,その使用目的もさまざまである.用途や目的が異なれば,そこで生じる問題への対処方法も異なるだろうから,p値声明,Gigerenzer(2004),Cohen(1994)のように,抽象的に批判するスタイルは,各分野での「誤用」をなくすのに得策ではないかもしれない.

 

8. ジャイアンの肩にのってStanding on the Shoulder of Giants

Senn(2016)の主張は,私には説得力があるように読める.確かに,頻度主義 vs Bayes主義という2つの立場の違いを理解するのは大切だろうが,実際には,頻度主義にもいろいろあるし,Bayes主義にもいろいろある.特に「p値」に関しては,Bayes主義における点帰無仮説と片側事後確率との間で,少なくとも数値的には大きな違いが生じる.一方,特に大標本ならば,Bayes主義における片側事後確率と,頻度主義におけるp値では,少なくとも数値的には違いが小さいことが多い.

<違った考え方や前提から導出したものなのに,まったくもしくはほぼ同じ結果が得られることがある>という現象は,統計学ではたびたび出くわす.例えば,t検定は正規分布からも導出されるが,大標本では,並べ替え検定の近似にもなっているし,正規分布のずれにもロバストである.

 

<前提や導出過程は違うが,結果は同じ>となる現象をどう解釈し,どのように処理するかは人によるだろう.しかし,いずれかの前提や導出過程を否定するのではなく,現象を豊かにみるきっかけにするのがいいのではないかと個人的には思う.もちろん,そのように考えるのではなく,<それなら,より汎用的な方法を使おう>や<それなら,より前提に対してロバストな方法を使おう>と考える人もいるだろう.それは,その人の好みのように思える.

 

統計的検定はさまざまな使わ方をしている.このブログ記事では,その応用分野での議論を抜きにして,抽象的な話を長々としてきた.このような議論の仕方は,かなり無理があるだろう.目的が違えば,そこで生じている問題への解決策も違ってくるだろう.ここまで読んでいただいてありがたいが,また,自己矛盾なのだが,このブログ記事も含めてネットに落ちている情報に振り回されず,自分が対面している問題に集中して取り組むのが第1だろう.

 

統計学のオアシスに喧嘩はつきものである.これからもp値の議論は続くだろう.

 

参考文献

Arbuthnot,J (1710). An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes. Philosophical Transactions of the Royal Society of London. 27(328), 186–190.

Bayes, Mr (and Price, Mr.)(1763). An Essay toward Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F.R.S. Communicated by Mr. Price, in a Letter to John Canton, A.M.F.R.S. Philosophical Transactions of the Royal Society of London. 53, 370–418.

Benjamin, D.J., Berger, J.O., Johannesson, M. et al. (2018). Redefine statistical significance. Nature Human Behavior. 2, 6–10 

Cohen, J. (1994). The Earth Is Round (p < .05). American Psychologist, 49(12), 997-1003

Cox, D.R. and Hinkley, D.V. (1974).  Theoretical Statistics. Chapman & Hall/CRC

Cox, D.R. (2006). Principals of Statistical Inference. Cambridge University Press

Dale, A. (1991:2nd ed.).  A History of Inverse Probability: From Thomas Bayes to Karl Pearson. 

Springer

Fisher, R.A. (1922). On the Mathematical Foundations of Theoretical Statistics. Philosophical Transactions of the Royal Society of London, Series A, 222, 309-368

Fisher, R.A. (1925). Statistical Methods for Research Workers. Oliver & Boyd

Fisher, R.A. (1935). Design of Experiments. Oliver & Boyd

Gigerenzer, G. (2004). Mindless Statistics. The Journal of Socio-Economics, 33, 587-606

Hubbard, R. (2011). P-Values in Lovric (ed.) International Encyclopedia of Statistical Science. Springer. 1144-1145

ICH Steering Committee (1998).  ICH Harmonised Tripartistite Guideline: Statistical Principles for Clinical Trials

Laplace, P.S. (1812) 日本語翻訳 伊藤清・樋口順四郎[訳・解説]『ラプラス 確率論:確率の解析的理論』共立出版

Lehman, E.L. and Romano, J. P. (2022: 4th ed.). Testing Statistical Hypotheses (Vol1 & 2). Springer

Nuzzo, R., Johnson, V. and Senn, S. (2016). ASA statement on P-values and statistical significance: Development and impact. YouTube Video, RoyalStatSoc. [URL]: https://www.youtube.com/watch?v=B7mvbOK1ipA

Punnett, R.C. (1904). Merism and Sex in “Spinax Niger”. Biometrika, 3(4), 313-362

Senn, S. (2003) Dicing with Death: Chance, Risk and Health. Cambridge 

(日本語訳:松浦俊輔訳『確率と統計のパラドックス青土社

Senn, S. (2007:2nd ed. ). Statistical Issues in Drug Development (2nd ed.). John Wiley & Sons

Senn, S. (2015). Blog Article: The pathetic P-Value. Guest Post in Error Statistics Philosophy

[URL] https://errorstatistics.com/2015/03/16/stephen-senn-the-pathetic-p-value-guest-post/

Senn, S. (2016). Are P-Values the Problem? The American Statistician, 70(2), Online Supplemental 

[URL]: https://doi.org/10.1080/00031305.2016.1154108

Student (1908). The Probable Error of a Mean. Biometrika, 6(1), 1-25

Wasserstein, R. L., and Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133.  [URL]: https://doi.org/10.1080/00031305.2016.1154108

久保川達也(2017)『現代数理統計学の基礎』共立出版

竹村彰通(2020:新装改定版)『現代数理統計学』学術図書出版

 

 

 

*1:このダジャレはSenn(2003)のものです

*2:このダジャレもSenn(2003)のものです