巷の慣習や教科書での統計的検定の扱いに対する先行研究

このブログ記事に対する責任は私個人だけに記します.所属組織は一切の責任を負いません.

 

このブログ記事は,次に黒木さんの呟きに対するリプライです.

 

 

先日のブログ記事もそうですが,今回の内容も,テキサス狙撃集の誤謬,もしくは,遡及的再集合化になっていると思います.話半分で聞いてください.

 

Fisherの1922年論文 On the Mathematical Foundations of Theorical Statistics では,統計学の問題を,特定(specification)の問題・推定の問題・分布の問題に分けました.しかし,特定の問題はわずか1段落で話が終わっています.

その部分では,主にKarl Pearsonの業績が紹介されており,色々な分布型の統計表を整備した,歪んだ分布に対してもPearson型分布族を提案し,カイ2乗適合度検定を提案したといった3点が,特定の問題に対するKarl Pearsonの貢献として述べられています.

1922年論文でも母集団が仮説的であることは強調されていると思いますが,統計学が普及していくにつれ,信頼区間などの推定の問題を話す時に,いつからか,特定の問題(これは1922年論文でも軽く述べられているだけですが)や,母集団の仮想性が忘れられたのかもしれません.

 

巷に普及した統計学の慣習に関しては,これまで,心理学のGigerenzer先生による主張が私個人は納得していました.Gigerenzer先生は,特に心理学の分野では1940〜1950年ぐらいの間に,Fisherの有意性検定とNeyman(-Pearons)の仮説検定を(悪い意味で)ハイブリッドした形式が広がったという見立てです.そして,そのハイブリッド型検定方式は,匿名化されており,FisherやNeymanの名前を出さないで教科書で教えられていった,という見立てをGigerenzer先生はしています.

 

統計学の教科書については,Huberty(1993) Historical Origins of Statistical Testing Practices: The Treatment of Fisher Versus Neyman-Pearson Views in Textbooks,  The Journal of Experimental Education, 61(4), 317-333という論文があります.

 

これら両者は,Fisherの有意性検定と,Neyman(-Pearson)の仮説検定を対比させています.両者とも,いくつか私の考えと違う点はあります.両者とも,Fisherは連続的なp値で,Neyman(-Pearson)は固定的なαという分類をしています.しかし,<元々,Fisherは,5%などを閾値として判断することを唱えていたが,後期にNeyman(とE. Pearson)を批判するようになって,固定的な有意水準を批判するようになった>という,Lehmann (2011) Fisher, Neyman and Creation of Classical Statistics, Springerでの見立ての方が私は納得します.

 

私にはFisherとNeymanとの見解の違いは重要そうに見えるのですが,黒木さんの主張は(私なりに理解すると),そのようなFisher v.s. Neymanの対立よりも,いずれの立場であっても「モデル内確率」で検定や信頼区間などが導出されている点が重要だという主張だと思います.

私の狭い観察では,Fisher v.s. Neymanの軸ではなく,「モデル内確率」に注目して,巷の慣習や教科書における検定や信頼区間を調査した研究は,日本語圏や英語圏などにはたぶんないのではないかと思います.統計教育や教科書に関しては,私自身のかなり狭い範囲でしか分からず,また,私自身はかなりの偏見の持ち主ですので,現状把握ができていません.何かしらの体系的な文献調査をすれば,統計教育や教科書での「モデル内確率」の扱いについて,より現状把握ができると思いますが,そこまでの時間が私にはありません.なお,少なくとも私個人は,「モデル内確率」と強調することはありませんでした.また,あくまで個人的な感覚ですが,少なくともハウツー本では,「モデル内確率」を全面的に押し出して書かれてはいないと思います.

 

検定や信頼区間の仮想性を強調するのに,「モデル内確率」という言葉を用いるのはいいアイデアだと私は思います.言葉で表されていない概念は,伝言ゲームをしていくうちに,忘れられがちのような気がします.なお,私個人は,先日のブログ記事の最後に書いたような点にも注意していきたいと思いました.

 

元のtjo先生による問題提起は,非常にごく細かい点は気になりますが(例えば,アンケートの選択肢に「確率でもあり,割合でもある」と「確率でも割合でもない」を設けるか,「どちらかと言えば確率」や「どちらかと言えば割合」との中間的な選択肢を設けても,面白かったと思います),私を含めたみんなが議論しやすい身近な話題を提供してくれたと思っています.基本的に,実用や応用の場面で,確率を頻度論的に解釈した方がうれしいか,合理的な信念として解釈した方がうれしいかをtjo先生は問題提起したかったのだと私は解釈しました.

なお,95%信頼区間の「95%」を「観測された信頼区間に真のパラメータが含まれる確率」や「観測された信頼区間に統計量が含まれる確率」と解釈するのを誤解とする教科書はこれまでにもいくつかあります.例えば,Snedecor1946:4th ed.Statistical Methodsp.29でも,触れられています(第4版だけしかチェックしてていません).これも私の個人的な感覚ですが,信頼区間の信頼係数については,Fisherの推測確率(fiducial probability)による解釈は統計家にも誤解だとされて,Neyman流解釈が主流になっていったのだと思います.