メモ:<Fisherの有意性検定では,対立仮説を設定しない>という説明について

現代統計学史での統計的検定の紹介で,<Neyman-E.S.Pearsonの仮説検定では対立仮説を設けるが,R.A. Fisherの有意性検定では単一の帰無仮説しか立てなかった>と説明されることがあります.

 

まず,私自身がたびたびそのように説明してきました(口頭でしか言っていないので,自分の記憶以外に証拠が見つかりませんが…).また,今でも,もしも時間がないときに「Fisherの有意性検定とNeyman-Pearsonの仮説検定の主な違いは一言で言うとなんですか?」と誰かから聞かれば,「Fisherは対立仮説を設けませんでした!」と私は答えるでしょう.

 

私以外でも,ある程度はこのような紹介は普及しているようで,たとえば次のような説明がなされています.(:以下は,ごく一部分だけの恣意的な抜き取りです.以下の各文献では,Fisher流有意性検定とNeyman-Pearson流仮説検定を包括的・多角的に丁寧に時間をかけて論じており,このブログ記事のような単純な論点だけを扱っているのではありません.)

 

No alternative hypothesis. One of the main critiques to Fisher’s approach is the lack of an explicit alternative hypothesis (Macdonald, 2002; Gigerenzer, 2004; Hubbard, 2004), …     

... The main conceptual innovation of Neyman-Pearson’s approach was the consideration of explicit alternative hypotheses when testing research data (Neyman and Pearson, 1928, 1933; Neyman, 1956; Macdonald, 2002; Gigerenzer, 2004; Hubbard, 2004)… “

(Perezgonzalez 2015; p.4)

 

 

「フィッシャーは対立仮説を設定せずに帰無仮説を検定しようとしましたが,ネイマン-ピアソンは帰無仮説に対置する対立仮説を仮定したという根本的なちがいがあります(Hacking 1965; Barnett 1999).」

(三中 2017; pp.119-120)

 

「Fisherの有意性検定のもとでは,問いの設定が「帰無仮説はどの程度の強さで棄却されるか」だったので検討する仮説は一つであった.しかし,Pearsonは,「誰も帰無仮説意外にそれらしい他の仮説がないなら,その仮説を棄却しようなどと思わないだろう」と指摘し,検定において対立仮説を検討することの重要性を強調した(Pearson, 1990)」

(大久保・會場 2019; p.244)

 

”It is noteworthy that Fisher set up a single hypothesis to test significance, not two. He points out some misunderstandings regarding significance testing.  “On the whole the ideas … that the purpose of the test is to discriminate or “decide” between or more hypotheses, have greatly obscured their understanding, when taken not as contingent possibilities but as element essential to their logic. The appreciation of such more complex cases will be much aided by a clear view of the nature of a test of significance applied to a single hypothesis by a unique body of observations. (Fisher 1959, p.42)”

(Morimoto 2021; p.48)

 

多くの専門家がそう言っているので,まあ,そうなのでしょう.有意性検定だけに話を絞ればその通りだと私も思います.また,最後に少し触れますが,上記の違いは重要だと私も思います.

 

そうは思いつつも,この<R.A.Fisherの有意性検定では,単一の単純帰無仮説しか立てない>説は,Fisherの主張のすべてを紹介していないと思います.R.A. Fisherが主張したのは,むしろ,<もしも,対立仮説を設定できるような状況ならば,無限個の連続的な帰無仮説が設定できるはずなので,その状況は推定の問題として扱うべき>ということだと私は現在は思っています.つまり,<帰無仮説と対立仮説を設定できる状況ならば,無限個の仮説を設定できるでしょ>とFisherは主張したのだと思います.

 

 

Fisherの文献からの引用

いろいろな箇所でR.A. Fisherは前節の主張(<対立仮説と帰無仮説を設定できる状況ならば,無限個の仮説を設定できるでしょ>)を述べていると思うのですが,以下でいくつか引用してみます.

1956年『統計的方法と科学的推論』

「科学的仮説は一般に,ミッチェルが考えたような単純な仮説(星のランダム分布)とは異なっている.科学的仮説では,一つあるいは二つ以上のパラメータ,つまり調整可能な”定数”が含まれており,それがどのような値をとっても,あるいは予め定めた範囲のいかなる値をとっても,仮説とは矛盾しないのである.このような仮説にたいして有意性検定を2通りの方法で適用することができる.まず第1に,仮説を全体として棄却するような有意性検定をつくることができる.[...]  第2に,このような特性[パラメータ値としてどのようなものを設定しても帰無仮説が棄却されるような状況]が見られなかったり,またそのような特性が見られてもそれが無理なことや不自然なことであったならば,一般的な仮説は一時的に採用される.そうしてパラメータの値を推定することが問題となる.」

(Fisher 1956; 訳書pp.48-49)

 

ここで,「単純な仮説」the simple hypothesisとは,おそらく専門用語です,「単純な仮説」とは,仮説がパラメータの一点だけで表現されているものです.反対語は「複合仮説」です.例えば,H0: μ=0, σ=1などは単純仮説です.

また,第1で挙げている有意性検定としては,一番,分かりやすいのは,自由パラメータで行うカイ2乗適合度検定だと思います.他にも,「H0: データは,N(0,1)からのi.i.d.である」という帰無仮説もそうでしょう.第2で挙げている有意性検定には,母平均μに興味がある場合の「H0(1.3): μ=1.3」「H0(2.8): μ=2.8」…などが挙げられるでしょう.

 

この文章は引用した本は,『統計的方法と科学的推論』であり,上記の Morimoto(2021, p.48)で引用されている本です. Morimoto(2021)で引用されている箇所の数ページ後に,上記の文章が書かれています.この引用部分(Fisher 1956; 訳書pp.48-49)を考慮して,上記 Morimoto(2021)で引用されている部分(Fisher 1956; 訳書pp.44-45)を読み直してみて,私なりに解釈すると,<ある1つのもしくは複数の仮説のなかから棄却する仮説を「決定」できるのは,まあそうなんだけど,そのような「決定」は検定の本質ではないよね.あと,帰無仮説は無限個,設定することもできるけど,無限個の帰無仮説の話は複雑だろうから,まずは1つの単純帰無仮説しか扱わない場合を解説するね!>とFisherは言っているのだと思います.

 

1955年 Neymanを批判した論文

”It may be added that in the theory of estimation we consider a continuum of hypotheses each eligible as null hypothesis, and it is the aggregate of frequencies calculated from each possibility in turn as true - including frequencies of error, therefore only of the “first kind”, without any assumptions of knowledge a priori - which supply the likelihood function, fiducial limits, and other indications of the amount of information available. “

(Fisher 1955, p.73)

 

[拙訳&意訳]次のことも追記しておこう.推定論においては,複数の連続的な仮説を考慮する.それら複数の連続的な仮説のそれぞれは,帰無仮説とみなせる.そして,「第1種」の誤りといった誤りが生じる頻度は,それらそれぞれの帰無仮説が真であるとして計算される頻度を集めて求められる.これらの頻度は事前分布を仮定せずとも計算でき,また,[この枠組みにより]尤度関数,推測区間(fiducial limit),情報量が定義される.

 

推測区間(fiducial limit)は,少なくとも現在の教科書には登場しない,消えた道具です.しかし,後期Fisherは,推測区間と信頼区間との違いを強く主張していました.

 

1934年 尤度に関する論文

”… it is surprising that Neyman and Pearson should lay it down as a preliminary consideration that “the testing of statistical hypotheses cannot be treated as a problem in estimation.” When tests are considered only in relation to sets of hypotheses specified by one or more variable parameters, the efficacy of the tests can be treated directly as the problem of estimation of these parameters. "

(Fisher 1934; p.296)

[拙訳&意訳]NeymanとPearsonが予備的な考な考察として,「統計的仮説検定は推定の問題としては扱えない」と述べたのは驚きである.検定が,1つ以上の可変なパラメータによって指定される仮説集合との関係で考えるだけで,検定の効率性はそれらのパラメータの推定問題として直接的に扱える.

 

1935年に書かれた手紙

 “His impression …. seems to rent on a confusion between problems of estimation & tests of significance - confusion has been, I am afraid, accentuated by the discussions of Neyman and Pearson on the subject."

(Fisher: 1935)

[拙訳&意訳][t検定とz検定との違いについての]彼の見解は,推定問題と有意性検定問題とを取り違えているからだと思われる.その混同は,私が思うに,その問題に対するNeymanとPearsonの議論によって広まった.

 

以上の引用部分を踏まえて,私なりにFisherの主張をパラフレーズすると...

以上の引用がFisherが述べたすべてではなく,また,引用も部分的すぎるのですが,Fisherによる上記のような説明を考慮すると,Fisherは次のように考えていたのではないでしょうか?

  1. Neyman(およびPearson)の仮設検定で想定している状況は,少数(1個か2個ぐらい)のパラメータに関して帰無仮説と対立仮説の2つを設定できるような状況だ.
  2. もし,上記1のような状況ならば,実際の科学的な場面では,問題となっているパラメータが任意の値になっている無限組の帰無仮説を想定することが多いだろう.
  3. もし,状況が上記2のようなものであるならば,それは検定の問題ではなく,推定の問題である.
  4. 上記3の推定の問題を扱うには,尤度,推測区間,情報量などがある.

 

それでも俗説は大切

<Fisherは,有意性検定において対立仮説を立てなかった>との説明は説明不足とは思うものの,その説明も,やはり実用上,重要な特徴だと思います.たとえば,次のような場合には,「検定」をしたい場合に,対立仮説がないと(私は)少し戸惑ってしまいます.

  1. ある有意性検定を,片側検定にするか,両側検定にするかを決める時.
  2. 有意水準を保つ2つの検定がある場合に,どちらの検定が「良い」かを決める時.

Neyman-Pearson流仮説検定では,帰無仮説と対立仮説を設定して,候補となっている検定のうち(不偏性があるもののなかで)検出力が大きいものを選択します.しかし,Fisher流有意性検定では,その基準が曖昧です.

 

Neyman-Pearson流仮説検定でも「じゃあ,どうやって対立仮説を決めるか?」という問題が生じるので,問題を先送りしただけかもしれませんが(課長に相談に行ったら,部長に相談してくれとたらい回しされたようなもの?),それでも,一応,Neyman-Pearson流仮説検定では不偏性や最強などの分かりやすい基準があります.

 

引用文献

Fisher, R. A. (1934) Two New Properties of Mathmatical Likelihood.  Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, 144(852), 285-307.

 

Fisher, R. A. (1935) Letter to E.B. Wilson on May-20-1953. URL: https://digital.library.adelaide.edu.au/dspace/bitstream/2440/68118/66/1935-05-20.pdf (Last Access: Jan-28-2023).

 

Fisher, R. A. (1955) Statistical Methods and Scientific Induction. Journal of the Royal Statistical Society. Series B, 17(1), 69-78.

 

Fisher, R. A. (1956: 1st ed.) Statistical Methods and Scientific Inference. Oliver and Boyd. (引用したのは第2版を底本とした訳書 渋谷政昭・竹内啓 訳(1962訳) 『統計的方法と科学的推論』岩波書店) 

 

三中信宏(2017)再現可能性ははたして必要なのか:p値問題から垣間見る科学研究の多様性,『計量生物学』,38(2)117-125

 

Morimoto, R. (2021) Stop and Think about P-Value Statistics: Fisher, Neyman, and E. Pearson Revisited. Annals of he Japan Association for Philosophy of Science, 30, 43-65.

 

大久保祐作・會場健大(2019)p値とは何だったのか(Fisherの有意性検定とNeyman-Pearsonの仮説検定を超えるために).『生物科学』,70(4),238-251.

 

Perezgonzalez, J. D. (2015) Fisher, Neyman-Pearson, or NHST? A Tutorial  for Teaching Data Testing. Frontiers in Psychology, 6(223), 1-11.