Fisherだけに5%閾値の責任を負わせるのは少し酷な気がする

以下，記憶だけで書いたいい加減な話．

5%閾値を広めた責任者は，K.Pearson, Fisher, Neyman, Snedecor，そして，統計分析のハウツー本の著者ら，さらに，私自身も含めた統計関連従事者（←統計家や統計学者ではない）ではないだろうか．Fisherだけに責任を負わせるのは酷な話だと思う．

まず，1900年初頭には，K. Pearsonの提案をもとに，probable errorの3倍以上のものを”almost certain significance”とする分類がBiometrikaを中心に利用されていた．このprobable error (PE)は，Xが正規分布に従っている時に，μ± PEにXが属する50%となるもの．このPEは，元々は，Galtonが多用していた．（Galtonは，いまでいう四分位点から，PEを求めていた．Galtonの文献では，標本と母集団の違いが曖昧．K. Pearsonになると標本と母集団の区別をしている．）

標本正規分布におけるPEは約0.6745なので，3PEは2.023ぐらい．つまり，3PEは，2SDにまあ近いと言えば近い．そして，2SDは両側5%に近い（実際には，両側5%はZ = 1.96）．

1925年のFisherによるSMRW（特に初版）では，有意か有意じゃないかの目安として5%を用いた理由として，この3PE≒2SD≒両側5%が挙げられている．よって，この段階では5%閾値が広まったのは，Fisherのせいだとも言えるし，K. Pearsonのせいだとも言える．ここでポイントとなるのは，少なくともSMRWの初版では，Fisherは（Fisherも）5%を（便宜的ではあるものの）閾値としていること．

また，Fisherが，5%を閾値とした間接的な理由として，統計表として，（分位点に対して累積確率を列挙した表ではなく）累積確率に対する分位点を列挙した表を用いないといけなかったことが挙げられる．そのような統計表を用いることになった理由としては，(a) K. Pearsonなどが作成したBiometrikaの統計表を利用できなかった，(b) F分布で分位点に対して累積確率を列挙すると表が膨大な量となる，という2つが挙げられるだろう．

ここから話は一捻りする．1930年代に入り，Neymanは，E.S.Pearsonとともに，現在，「Neyman-Pearsonの補題」として知られている補題を提示した論文を筆頭に，仮説検定や信頼区間に関する論文を発表していった．これらの論文では，対立仮説や第1種＆第2種の誤り，accept/rejectといった数理的な概念をもとに，仮説検定の理論を整備していった．Neyman-Pearsonの補題を筆頭としたNeymanの仮説検定の枠組みは，多くの統計学者に普及していった．

Neymanの仮説検定の枠組み自体では，閾値は特になんでも良い．たとえば，Neyman-Pearsonの補題は，有意水準が5%でも，1%でも，0.1%でも，3.2%でも成立する．しかし，Neymanの仮説検定では，検出力を求めるために検定において何かしらの閾値を決める必要がある．

一方，1930年代にはSnedecorのハウツー本が出版される．この本は，FisherのSMRWよりもはるかに多く売れた．この本には，5%以下は”significant”でアスタリスク1つ(*)，1%以下は”highly significant”でアスタリスク2つ(**)付ける表が登場する．星付与システムの普及には，Snedecorのハウツー本が強く貢献したと思われる．

1930年頃ではすでに5%の閾値は普及していたと思われるが，統計分析のハウツー本の筆者らの間で，「5%」が次第にNeyman流の「第1種の誤りの確率」として解釈されるようになっていく．そして，統計的検定が，帰無仮説と対立仮説のいずれを選択するかの意思決定だと考えられるようになる．元々，Fisherは1930年からNeymanの仮説検定の枠組みを批判していたが，1940年以降になると，Neyman流の仮説検定が不可逆的な白黒を付けてしまう枠組みであり，製造業分野でのacceptance procedure（工業製品のロットに対して，いくつかを抜き取って合格/不合格を決める方式）を科学の分野に無理矢理，応用しようとしたとして批判するようになっていく．その際，5%を閾値とすることも批判するようになっていく．

Lehmannの見立てによると，そのようなFisherによるNeyman批判は，「おまいう」案件だろうということだ．Lehmannは，SMRWのいくつかの版を見て，次第に5%閾値とする記述が薄まっていくさまを記述している．また，D.R.Coxによると，実際の応用場面では，一般に思われているイメージとは別に，Fisherの方が閾値（5%）を基準に白黒をつけていて，Neymanの方がp値を示して白黒をつけずに連続的に解釈しているとのことだ．

しかし，K.Pearson, Fisher, Neyman, Snedecorだけが，5%閾値の責任者ではない．むしろ，統計家や統計学者以外のその他大勢の統計関係者の責任の方が大きいのではないだろうか．私自身も，「5%閾値には科学的な意味がありません．しかし，世間ではよく使われています．」と人々に紹介してきた．これ自体，嘘ではないだろうが，適切な説明ではないだろう．そう聞いて，「科学的に理由がないのだから，使うのをやめよう」と思う入門者は少ないだろう．むしろ，5%閾値を利用して，もし誰かに理由を聞かれたら同じ理由を言うことになるだろう（もし「なぜ5%を閾値としたのですか？」と聞かれたら，「5%には科学的な意味がありません．しかし，世間ではよく使われています．」と答えるようになる．嘘ではないので，罪悪感が小さい）．

以上はあくまで私の個人的な感想なので，まあ誤解も多く含まれているだろう．そしてもし大体，合っていたとしても，上記のような小噺を入門者に（全部で1日間ぐらいの講義のなかで）伝えるのは得策ではないと思う．「少なくとも1950年代のFIsherは，Neymanの仮説検定の枠組みを白黒を付けてしまう枠組みだとして批判していました．」ぐらいを伝えたので十分ではないだろうか．

さらにおまけとして，実際には閾値として5%以外の閾値も数多く使われている点にも注意が必要だろう．例えば，医薬臨床試験の統計家であるStephen Senn先生が指摘しているように，ICH E9で規定されている有意水準は2.5%であり，5.0%ではない（さらに，2回パスする必要がある場合には，実質的な有意水準は0.025の2乗となる）．製造業での管理図では，3σルールがよく使われていたが，3σは5%ではない（なお，これは王道の統計的検定ではなく，有意でなかったら，通常状態であると判断する枠組みである）．他にも，ICH Q1Eでバッチ間の違いがあるかどうかの判断で使われる有意水準は25%（0.25）である（これはモデル選択において，統計的検定を流用している）．このように色々な閾値があるのは，統計的検定が，（それが数理的に擁護できるかどうかは分からず，人によっては邪道に見えるだろうが）応用では多種多様な目的で使われているからだと思われる．

もうひとつおまけとして，日本での特殊事情もあるかもしれない．日本では，戦中から戦後にかけて数理統計学の輸入と普及が加速していったが，「Fisherを祭り上げて，Neymanの枠組みを教える」というものだったと思う．一方，英語圏では，Gerd Gigerenzer先生の見立てによると，匿名化・無歴史化された（悪い意味で）折衷型の検定が普及していったという．