t検定を並び替え検定とみなし,その帰無仮説を「2つの母集団分布は同じ」とすべきという私の主張について

昨日,Twitterにて,(ある程度,標本サイズが大きければ)通常のt検定は並び替え検定として解釈して,その時の帰無仮説は「2つの母集団分布は同じ」とした方がいいだろう,と私が呟きました.

以下の引用リツイートを,黒木さんからしていただきました.

 

引用リツイートしていただきありがとうございます.

少し長くなりますが,いま思いついたことを,以下に書きたいと思います.

お断り

あくまで私の個人的な意見であり少数派だとは思います.また,黒木さんのように真摯に考えているわけではなく,私の考えは浅いと思います.

私の中心的な考え

特に無作為抽出(ランダムサンプリング)が行えず,無作為割り付けしか行えない状況では,t検定を並び替え検定の近似とみなし,「2つの母集団は同じである」(もしくはFisherのsharp hypothesis)というノンパラメトリック帰無仮説の検定とみなすのが良いんじゃないかなぁ,と考えています.

 

私の主張(や統計学の入門書)で足りなかった点

しかし,それだけしか統計ユーザーに伝えなければ,「2群で異なる分散を検出するためにt検定を行う」という方も出てくるかもしれませんので,どの方向に検出力が高いかも伝えた方がいいとは思います(黒木さんのおっしゃる通り,2群で標本サイズが等しい場合(かつ標本サイズが大きければ),平均は同じで分散だけが異なる場合の検出力は有意水準と等しくなるでしょう).

 

通常のt検定とWilcoxon検定の検出力に関しては,入門者用の教科書では(例えば竹村本 pp.287-291)  F(x) = G(x-θ)と2群の母集団分布が位置パラメータだけズレたことは扱っています.しかし,入門者用の教科書では,もっと幅広い方向でのズレ(たとえば分散が異なる場合)に関する検出力は扱っていないと思います.おそらく研究は進んでいるのでしょうけれども,私は追えていません.しかし,重要な視点だと思います.

 

そうは言っても...

いろんな方向の検出力を考えることも大事だろうとは思いつつも,一方で,そこまで気にする必要はないだろうとも思います.どのような統計量に注目すべきかは,研究の目的や内容によって,実務家や研究者が”直感で”分かるようなものではないかと妄想しています.

 

私が知っているこれまでの統計学上での議論

上記の話題は古くは,FisherとNeyman の間で交わされた論争であり,「検定Aではなく検定Bを用いる”べき”」と主張する際に,Neymanの方は,有意水準が保てている中で(かつ,不偏性があるものの中で)検出力が高いものを選ぶべきとしました.Fisherの意見ははっきりしませんが,実務家が興味のある指標を用いるべきという考えだったと思います(他にも,Fisherは,補助統計量で局外母数を消すとか,十分統計量を用いるべきとか,色々ごちゃごちゃして話がこんがらかっていますので一概にはまとめられないと思います.).

 

私の主張における2つの大きな欠点

帰無仮説を「母集団分布は同じ」(もしくはFisherのsharp hypothesis)にするという私の好みに沿った場合,実用上,大きな問題となることが2つあると思います.

第1に,ノンパラメトリックな枠組みでは,標本サイズや検出力を算出できない点です.そこは妥協して,これまでの慣習通り,計画段階では,パラメトリックなモデルを仮定して算出したのでいいのではないかと思っています.つまり,計画はパラメトリックに,分析はノンパラメトリックに解釈する,という方針でいいんじゃないかと思います.

 

第2に,これはもっと深刻かもしれませんが,ノンパラメトリックな仮説では,特定のパラメータに対する区間推定との整合性が取れなくなるという点です.H0: F(x) = G(x - θ)と帰無仮説パラメトリックなものに変えれば,形式的にはθに対する区間推定はできますが,そうすると,「2つの母集団分布は位置パラメータだけが異なる」という強い制約を課すことになります.その制約をなくして推定するとなると,検定では通常のt検定,区間推定ではWelch検定と,整合性が取れなくなります.じゃあ,検定の方もWelch検定にしたらいいじゃないか,とも思いますが,そうすると,帰無仮説として「分散は異なるけれど平均は同じ」ということを想定することになります.無作為化試験の時には,効果がなかったら,反応の並び替え分布は同じものと考えるのが自然で,「効果はないが分散は異なる」というのは不自然だと私は直感的に思います.

 

私がもつ楽観的想像

Neyman流頻度主義に基づき乱数シミュレーションで同一母集団からの無作為抽出を何回も繰り返して,検定の誤りの確率を評価するのも非常に重要だとは思います.しかし,どの検定を使う”べき”,どう解釈す”べき”かという規範上の取り決めは,普段から実データを目にしている各領域の実務家がよく分かっているんじゃないかと私は妄想しています(Fisher主義).

 

お断り Part2

また,上記の話はあくまでn = 1000とかn= 5000とかの話をイメージして書きました.n = 5などになると,話は別になると思います(そもそも検定や区間推定をすべきなのか?).逆に n = 100万,n = 1000万などになっても,まったく話は違ってくると思います(そもそも,単純な群間比較ではなく,より汎化性能の高い複雑なモデルを立てる方が得策?).