批判されているのは、どの統計的検定?

American Statistical Associationがp値に関してステートメントを出しました。

Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA's statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108

 一読しただけですが、「一体、このASAのステートメントは、どの統計的検定を問題にしているのか?」と、ふと疑問に思いました。

統計的検定は一枚岩ではありません。たとえば、Barnett(1999)では、統計的推測のアプローチを便宜的に「古典」統計学、Bayes流、意思決定論の3つに分類しています(Barnett, V.(1999) "Comparative Statistical Inference (3rd ed.)"を参照のこと)。さらに、「古典」統計学の統計的検定は、慣習的にFisher流とNeyman流の2つに分類されます。

もちろん、同ステートメントの著者らがこれらの違いを知らないはずがありません(参考文献には、これらの違いを解説した論文が紹介されています。たとえば後述のGigerenzer(2004)など)。ステートメントの本文ではあえてこれらの違いに触れなかったのでしょう。

なぜFisherとNeymanの対立を取り上げなかったのか、私なりに理由を妄想してみました。

  1. ふたつの立場を説明すると、多くのエンドユーザーは混乱してしまうから。
  2. FisherとNeymanが何を争っていたかが分かりづらいから。Fisher自身が前期と後期で主張していることが微妙にずれており、さらに、Neymanのほうは、彼の理論(仮説検定)とFisherの理論(有意性検定)には違いはないとも主張している。
  3. Bayes流の立場、意思決定理論の立場、または、統計的推測を全否定する立場から見れば、FisherもNeymanも同じ穴のムジナだから。
  4. そもそも「どんなときでも5%を閾値として判断する方式」は、Fisherも、Neymanも主張していないから。

Gerd Gigerenzerらによると、米国では1930年~1955年において教科書を媒介として心理学などの分野で統計的検定が普及していったそうです。このとき、統計的検定は、Fisher、Neyman、Bayesをごちゃまぜにした、匿名の手法として広まったそうです(巷に普及している統計的検定がNeymanとFisherのチャンプルーであることは、Spielman, S.(1974) "The logic of tests of significance", Philosophy of Science, 41, pp.211-226で指摘されていました)。この静かなムーブメントを、Gerd Gigerenzerらは、「推測革命(inference revolution)」と呼んでいます。ASAのステートメントが問題にしているのは、おそらくGigerenzerが批判している「匿名の統計的検定」なのでしょう。

今回のステートメントの文献リストを見ると、Gigerenzer, G.(2004) "Mindless statistics" Journal of Socioeconomics, 33:pp.567–606が挙げられています。私の知識では事実かどうか判断できない部分もあり、また、異論があるところもありますが、面白かったです。どうなんでしょう?