反省文：p値を＜データが偶然で生じる確率＞と思うのはやめます

はじめに

統計学のハウツー本を読んでると，p値を＜データが偶然で生じる確率＞や＜データが偶然だけによって起きた確率＞と解説しているものを時々，見かけます．私自身も，長い間，p値をそのように解釈して，また，お客様や同僚に説明してきました．

2016年米国統計学会のp値声明では，＜p値は，帰無仮説が正しい確率ではない！＞や＜p値は，データが偶然で生じる確率ではない！＞と忠告されています．p値声明の日本語訳（http://www.biometrics.gr.jp/news/all/ASA.pdf）では，「研究者は、しばしば P 値を帰無仮説が正しいという記述や、偶然の変動でデータが観察される確率に変えたがるが、P 値はそのどちらでもない。P 値は仮説やその計算の背後にある仮定に基づいたデータについての記述であり、仮説や背後にある仮定自身についての記述ではない。」とアドバイスされています．

そのようなアドバイスにも関わらず，2016年以降でも上記のような誤解を私は見かけます*1．

なぜ，その解釈は誤解なの？

まず，なぜ，現在の統計学ハウツーにおいて，＜データが偶然で生じる確率＞とp値を解釈するのが誤解とされているのかを考えてみました．私自身は，米国統計学会のp値声明をはじめとするあらゆる議論にもまったく関与していないので，以下は単なる私の妄想かもしれません．

＜データが偶然で生じる確率＞を，

$Pr(データが偶然で生じる)$

と表すことにします．一方，p値は，大雑把に述べると，＜帰無仮説および前提が正しいという仮定のもとで，現在のデータ以上に極端なことが生じる確率＞です．少しだけより正確に述べると，＜帰無仮説および前提が正しいという仮定のもとで，現在のデータから得られた検定統計量の値以上に極端なことが生じる確率＞です*2．この説明でもかなり曖昧ですが，検定統計量を $T$ , 現在のデータから計算された検定統計量の値を $t$ として，記号で表すと，

$Pr_{H_0,A}(T \ge t)$

となります． $H_0$ は帰無仮説， $A$ は前提を意味していて， $Pr_{H_0,A}(.)$ は帰無仮説と前提が正しいもとでの確率を示しています（少し変ですが，うまく記号で表現できなくて，とりあえずこう表しました）．この確率 $Pr_{H_0,A}(T \ge t)$ は $Pr(データが偶然で生じる)$ ではありません．

$Pr(データが偶然で生じる)$ を，＜帰無仮説および前提が正しいもとでデータが偶然で生じる確率＞もしくは $Pr_{H_0,A}(データが偶然で生じる)$ と表現すれば少しはマシになりますが，それでも違います．なぜなら，p値は，＜データが偶然で生じる＞という現象に対する確率ではないからです．p値は，あくまで，特定のモデルが成立しているという妄想のもとで計算される検定統計量に関する確率なのです．

さらに，＜p値＝ $Pr(データが偶然で生じる)$ ＞と解釈するとおかしなことが生じます．＜p値＝ $Pr(データが偶然で生じる)$ ＞と解釈すると，確率の公式より，

$Pr(データが偶然で生じない) = 1 - p値$

となります．そのように理解してしまうと，p値が小さい場合「現在の結果は必然で生じた確率が高い！」という突拍子もない解釈になってしまうでしょう．

どこから誤解は生じたのか？

統計的検定において「偶然だけ」というフレーズが使われているのは，遅くてもEdgeworth（1885）に見ることができます．
Edgeworth（1885, p.182）における統計的検定の例の1つは，超能力実験のカード当てになっているのですが，そこで次のような文章があります．

"The first problem investigates how far the difference between the average above stated and the results usually obtained in similar experience where pure chance reigns is a significant difference ; indicative of the working of a law other than chance, or merely accidental." (Edgeworth 1885, p.182)

［拙訳］「上記した平均［実際の実験から得られた平均］と，同様だが偶然だけが支配している実験で通常，得られる結果との差が有意な差とどれぐらい離れているかを調べる．有意な差があった場合は，偶然ではない法則，すなわち，まったくの出鱈目ではない法則が働いていることを示唆する．」

Edgeworthは，p値は用いておらず，"modulus"という標準誤差をsqrt(2)倍したものの何倍になっているかで有意か否かを判断していました．現代風に言うと，この超能力実験での帰無仮説は，「H0: ランダムにカードのマークを言っている」です．上記引用部分では，この帰無仮説が正しいというもとでの期待値をEdgeworthは求めています．

また，Edgeworth（1885）では，＜［観測された］差が有意 significant である＞や＜［観測された］差が偶然 accidental である＞という表現も出来てきます．Edgeworth（1885）での「偶然 accidental」は「有意 significant」の対義語として使われているようです．この表現から＜p値は，差が偶然である確率だ！＞という誤解が生まれたのかもしれません．

なお，念のために繰り返し述べておくと，p値声明が忠告しているように，p値は＜観測された差が偶然である確率＞ではありません．さらに帰無仮説が正しいとしても，また，逆に帰無仮説が正しくないにしても，得られた結果が偶然か否かは定義によります（たとえば超能力をまったくもたない人が1000回連続でカードを外すことも「偶然」と言えます．また，ごく微量の超能力しかもたない人が1000回連続でカードを当てることも「偶然」と言えます）．それらの意味でEdgeworth（1885）での＜［観測された］差が偶然 accidental である＞という表現は，現在の統計ハウツーから見ると，誤用（控え目に言えば誤解を生む表現）だと私は考えます．ただし，超能力実験の帰無仮説を表現するのに「ランダムにカードのマークを言う」と表現するのはOKだと思います．

どう解釈するのが安全か？

p値声明の日本語訳（http://www.biometrics.gr.jp/news/all/ASA.pdf）では，「P 値はデータと特定の統計モデル（訳注:仮説も統計モデルの要素のひとつ）が矛盾する程度をしめす指標のひとつである。」と説明されています．米国統計学会がそう推奨しているので，こう解釈するのが安全なのでしょう．ただ，この解釈はあまり実用的ではない気が私はします．

Fisherが提示した有名な解釈の1つは，p値が小さい場合，＜帰無仮説が成立しているもとで珍しいことが生じたか，もしくは，帰無仮説が成立していないか，のいずれかである＞と判断する，というものです．しかし，この判断は弱気すぎると思います．

私自身は現在，＜特定の帰無仮説もしくは前提が成立していないことをデモンストレーション（例証）する証拠の1つとして，現在，得られた結果がどれぐらい統計的に意味があるか＞を示す指標である，とp値を解釈するのがいいのではないかと思っています．p値が大きな場合には，帰無仮説／前提が成立していないことを例証する証拠の1つに現在の結果がなっていない，と判断します．一方，p値が小さな場合には，帰無仮説／前提が成立していないことを例証する証拠の1つに現在の結果がなっている，と判断します．この解釈が，実用的であり，かつ，誤用や誤解もそれほどしていないと私は思います．

ただし，p値声明では，「たとえば、0.05 に近い P 値ひとつだけでは帰無仮説を否定する弱いエビデンスでしかない」と忠告しています．その理由は明記はされていませんが，p値声明全体から私なりに類推すると，第1に，p値以外のどんな指標であっても，単一の指標だけで白黒を付けるのはまずいでしょう．第2に，証拠の強さを示す指標としては，ベイズ因子（尤度比）やベイズ流の事後確率と比べたときに（研究者が感じ取るイメージよりも）p値が小さくなりすぎていると批判されています．この第2の批判では，p値以外の指標を用いることが強調されます（私自身は，現在でもp値は有用だと考えています）．

念のため：私は分かっていません...

Fisherは，＜1回きりの有意な結果だけでは，実験的に例証可能（experimentally demonstrable）だとは言えない＞と述べ，＜統計的に有意にはならないことが滅多にない実験の手順をしっているときに初めて，その現象は実験的に例証可能であると主張できる＞と述べました（Fisher 1966:8th ed, pp.13-14）．
Edgeworthが取り上げたもの（Edgeworth 1885）をはじめ，おそらくは多くの超能力実験において，非常に高度に有意な結果が得られています．しかし，それらの有意な結果だけをもとに，超能力の存在を認める人は少ないでしょう．

p値のことを気にするよりも，バイアスやばらつきがなるべく小さくなるように，調査・実験・試験を綿密にデザインするほうが大事だと思います．また，たとえ完璧なデザインと分析であっても，統計的検定だけで導かれる結論は相当に弱いものでしょう．統計的検定や統計学の今までの見かけが強すぎたのです．私は統計的検定や統計学を実際に利用していないので，分かっていませんが...．

文献

Edgeworth, F.Y. (1885)
Methods of Statistics
Journal of the Statistical Society of London, Jubilee Volume (Jun. 22 - 24), 181-217

Fisher, R.A. (1935:1st ed., 1966:8th ed.)
The Design of Experiments
Oliver and Boyd

*1:ある仮定のもとでは「誤解」が実際には正しいときもあるのかもしれませんが，このブログではそこまで複雑な話は考慮しません．

*2:このブログ記事ではFisherの正確検定のような条件付き推測は考慮しません．また，p値にはまったく別の定義もあります．＜現在のデータにおいて有意水準 $\alpha$ で帰無仮説が棄却できるとき，その有意水準 $\alpha$ の最小値＞とp値が定義されるときもあります．