検定や信頼区間の前提が満たされない状況に対して,テキストはどう助言してきたか?

このブログ記事は,他の記事と同様,筆者個人の意見であり,すべての責任は筆者個人だけにあります.所属組織は,一切の責任を負いません.

このブログ記事は,履歴を残さず変更するかもしれません.

  

検定や信頼区間を導出したときに仮定した前提は,実場面では成り立っていないことが多いでしょう.そのような前提の不成立に対する対処方法を私なりに要約すると,次の7つぐらいに分類できると思います.

  • (1)検定や信頼区間を使わない.
  • (2)特定の分布からのズレにロバストな方法を用いる.
  • (3)従来のモデルが,前提からのズレにロバストであることを強調する.
  • (4)従来のモデルを一般化したモデルを用いる.
  • (5)モデルチェックを重要視する.
  • (6)デザインによって仮定が満たされるように努力する.
  • (7)ノンパラメトリックなモデルを用いる.

いま私の手元にあるテキストで,これら7つの話題がどのように取り上げられているかを少しだけ調べてみました.

 

なお,1/3ぐらいこのブログ記事を書いた時点で,東京大学教養学部統計学教室編「基礎統計学」3部作の1つである『自然科学の統計学』(東京大学出版会)を開いてみたところ,竹内啓・藤野和建「第7章 分布の仮定」pp.221-229に,主に正規性からのズレについて解説がされていました.

上記の7つのうち,取り上げている手法に違いがあったり,同章では数理的な解説がされていたりする等の違いはあるものの,同章では(2),(3),(5)は触れられていました.

(3)については,有意水準にはロバストであるものの,検出力の点では劣る可能性が同章では指摘されていますが,このブログ記事では取り上げません.

(7)は,このブログでは「(標本サイズと比べて)パラメータが多いモデル」を指しますが,同章では順位変換検定を指します.

 

なお,以下で取り上げている文献は,私の手元にあるテキストだけから,現在,思い付いたものを恣意的に選んだもので,一般性がある訳ではまったくありません.

 

(1)検定や信頼区間を使わない

「現実では前提を満たしていないから」という理由では必ずしもありませんが,一部の統計家は検定(や信頼区間)を避けました.

かなり古くなってしまいますが,Tukey (1977), Exploratory Data Analysis, Addison-Wesley Publishing Companyでは,検定や信頼区間が登場しません.

これも古いテキストですが,フランスのテキストでも,Volle(1981: 2ème édition) Analyse des données, Economicaには,検定や信頼区間が登場しません(私はフランス語が読めないので,あくまで数式を見た感じです).

日本でも,例えば林知己夫はたびたび検定を批判していましたが,例えば,数量化理論のテキストである林知己夫(1993)『数量化−理論と方法−』朝倉書店では,最初に検定批判をしている以外は,検定や信頼区間が登場しません.

テキストではありませんが,さらに古いもので社会学では,Merton, Reader and Kendall (1957) The Student-Physician: Introductory Studies in the Sociology of Medical  Educationの付録p.301-305では,同書にて有意性検定を使わなかった理由が書かれています.以下,私なりにパラフレーズすると,第1に,有意性検定は1つ1つで有意・有意でないを判断するので,複数の関連し合っている仮説を調べるのには適していない,第2に,第1種の誤りの確率を恐れて,有意水準を低くすると,第2種の誤りが増大するので,探索型の調査には適さない,第3に,有意性検定は無作為抽出を前提としているが同書のデータは無作為に抽出されていない,第4に,統計的な有意性と,結果の重要性は異なる,といった理由が挙げられています.以上,私なりに同書p.301-305パラレーズしました.このうち,3番目の理由は,<現実の状況では検定の前提が満たされていない>ということに相当すると思われます.検定を使わないことにより,一応,<前提が満たされていない時にどうするのか?>という問題に対処しているともいえます.

このように検定や信頼区間を扱わず,記述的な統計手法だけを扱うテキストがいくつかあります.より極端になれば,統計分析そのものを一切,行わないことも,対処方法としてありえるかもしれません.

 

記述的な統計手法ではないですが,Hastie, Tibshirani and Friedman『統計的学習の基礎』(翻訳書:共立出版)でも,索引を見る限り,検定や信頼区間が登場しません.最初から,バイアス-バリアンスジレンマを全面に押し出しています.データサイエンスでも機械学習教師あり学習ならば,検定や信頼区間を最初から扱わなくても,特に支障はないかもしれません.検定や信頼区間ではなく,holdout validation, cross-validation, leave-one-out-valicationなどをまずは理解することに注力することも戦略としてありえると思います.

 他にも,AICなどでモデル選択していて検定や信頼区間を取り上げていないテキストもあるでしょうけれども,よく分からないので省略します.坂元 慶行(1985)『カテゴリカルデータのモデル分析』 共立出版のABICなどでのモデル選択は,後述する(7)に相当するかもしれません.

 

(2)特定の分布からのズレにロバストな方法を用いる

 従来の方法(例えばt検定)に置き換えて,特定の分布(例えば正規分布)からのズレに比較的ロバストである方法,例えば,ブートストラップやランダム化検定(並べ替え検定)を紹介するテキストもあります.

ただし,統計教育でブートストラップや並べ替え検定が注目されたのは違う理由があるかもしれません.よく使われている検定や信頼区間でも,

  • 標本分布を数理的に導出する
  • 求められた検定や信頼区間がなぜ良いのかを正当化する

といった数理を理解するのが(少なくとも私には)難しいです.例えば,t検定を例にすると,

  •  X_i \sim(\mu, \sigma^2), i.i.d.の元で,標本平均と標本分散が独立で,かつ,標本分散が自由度n-1の \chi^2乗分布に従うことを示す
  • t分布の定義からt分布の密度関数を導出する
  • t分布の累積分布関数や分位点関数を求める数値ルーチンを理解する
  •  X_i \sim(\mu, \sigma^2), i.i.d.の場合にもつ該当の信頼区間が良い性質をもつかどうかの判定する

という4点が(私には,少なくとも他人に教えるのは)難しいです.これらのややこしいことを説明するのを避けるためだと思われますが,t検定ではなく,最初から,ブートストラップ法やランダム化検定を教える試みも行われているようです.

スポーツデータを題材にしたテキストであるTabor and Franklin(2013) Statistical Reasoning in Sports, W.H. Freeman and Companyでは,ランダム化検定が使われています.

また,Wikipediaの情報で私は未確認ですみませんが,https://en.wikipedia.org/wiki/Statistics_educationでは,ニュージーランドにて,ブートストラップを利用する試みが紹介されています.

日本の心理学分野では,橘敏明(1997)『確率化テストの方法―誤用しない統計的検定』にて,ランダム化検定が推されています.ただ,ランダム化検定が同書で推奨されているのは,確率分布(特に正規分布)からのズレにランダム化検定がロバストだからという理由ではなく,x-xiページによると,1) 心理学実験は無作為抽出を行わずランダム割り付けしか行わない,2) 応用や変形が簡単にできる,4) ランダム化検定は難しい数式が必要なく理解が簡単などが直接的な理由とのことです.同箇所では4つ理由が書いているのですが,3)は私が理解できないために,ここでは省略しました.

 

他にもさまざまなロバストな方法が紹介されることがあります.例えば,テキストではなくて規格になりますが,Z 9041-5:2003 (ISO 16269-7:2001)では母メディアンの推定値として標本メディアン(中央値)および,その信頼区間として分布によらない方法を勧めたり,平均と標準偏差の点推定値を求めるだけですが,外れ値にロバストな方法としてHuberのProposal 2を紹介しています.

回帰モデルでのロバスト推定が,Ryan(1997), Modern Regression Methods, John Wiley & Sons,11章で紹介されています.

二項分布やPoisson分布から予想される理論分散よりも,大きな分散となっていること(過大分散)が確認された場合,擬似尤度に基づく推定を紹介しているテキストもあります(McCullagh and Nelder 1989:2nd ed., Generalized Linear Models, Chapman and Hall/CRC).

 

特定の分析を解説したテキストでは,たびたび,いくつかの仮定からの逸脱にロバストな方法が紹介されています.

もっともハウツー本にでも登場するのは,二標本t検定におけるWelch検定でしょう.通常のt検定は,少なくとも数式上は等分散を仮定して導出されています(他にも,独立性や正規性も仮定します).一方,Welch検定は,少なくとも数式上は異分散を仮定して導出されています(こちらも,独立性や正規性は仮定します).ただし,標本サイズが等しく,ある程度の標本サイズがあれば,通常のt検定とWelch検定はほぼ同じ結果となります.また,後述しますが,通常のt検定は,並び替え検定の近似とみなせます.

他にも,計量経済学のテキストでは,重回帰モデルの最小2乗のところで,誤差が異分散性にロバストなサンドイッチ分散(Whiteの標準誤差)が紹介されています(例えば,Wooldridge (2010:2nd ed., pp.124-126), Economtric Analysis of Cross Section and Panel Data, The MIT Press, p.61).

重回帰モデルの最小2乗におけるサンドウィッチ分散とほぼ同じアイデアのものとして,線形混合モデルのテキストでは,共分散構造からのズレにロバストなサンドウィッチ分散が紹介されています(例えば,Verbeke and Molenberghs『医学統計のための線型混合モデル-SASによるアプローチー』訳書 p.60).

構造方程式モデルのテキストでは,最尤推定以外に,正規分布からのズレにロバストな推定方法も紹介されています(例えば,狩野裕・三浦麻子(2020:新装版)『新装版 AMOS, EQS, CALISによるグラフィカル多変量解析:目で見る共分散構造分析』pp.130-138, pp.149-162.ただし,ロバスト推定だけならず,適合度や正規性のチェックなども述べられています).

おそらく,後半に述べたこれらのロバスト推定は,小標本や中規模な標本で必ずしも望ましい結果になるとは限らないでしょう.しかし,とりあえずは,いくつかのテキストで,これらのロバストな方法が仮定を満たしていない時の対処方法として読者に示されています.

(3)従来のモデルが前提からのズレにロバストであることを強調する

Fisherは,1925年にStatistical Methods for Research Workersというテキストを出版しました.同テキストに対してStudentが批判的なコメントを出し,Fisherがそれに答え,その返答に対してE.S. Pearsonが再批判しました(http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/esp.htm).

まず,Studentが非正規分布に対する統計表も必要ではないかと批判しました.Fisherは.いくつかの理由を述べた後,正規分布からのズレは生物学的研究ではまず見られないと反論しました.E.S. Pearsonが,歪度と尖度の点で正規分布からズレているいくつかのデータ例を示し,再反論しました.

このような批判があったためだと思うのですが,1935年に出版されたThe Design of Experiments では,対応のあるt検定が,ランダム化検定(並べ替え検定)の近似になっていることを紹介しています.

また,テキストではなくて論文ですが,1936年の"The Coefficient of Racial Likeness" and the Future of Craniometry", The Journal of the Royal Anthropological Institute of Great Britain and Ireland , 66 では,2標本t検定をランダム化検定として説明しました.

現在でも,t検定が,ランダム化検定の近似になっていることはいくつかのテキストで紹介されています(例えば,一標本t検定については,竹内啓 1963『数理統計学:データ解析の方法』東洋経済 pp.223-224,二標本t検定については,竹村彰通 2020 『新装改定版 現代統計数理統計学』学術図書 pp.283-287)

また,上記のような論理ではなく,中心極限定理から,漸近的には標本平均にnの平方根をかけたものが正規分布に従うことを紹介することは,いくつかの数理統計学のテキストで紹介されています(例えば,竹村彰通 2020 『新装改定版 現代統計数理統計学』pp.80-81).コーシー分布のような平均が分散が存在しない分布など反例は出せますが,このように,t検定のロバスト性を紹介することで,とりあえずの対処方法(何もしないで良いという対処方法)がいくつかのテキストでは提示されています.

 

(4)従来のモデルを一般化したモデルを用いる

 古くはKarl Pearsonが,正規分布ではない分布族として,タイプⅠからタイプⅦまでの分布族を提案しました(https://en.wikipedia.org/wiki/Pearson_distribution).その分布族には,ガンマ分布やベータ分布も含まれます.現在のテキストにてPearson分布族が紹介されることはまずないですが,例えば佐藤良一郎(1943)『數理統計學』培風館で紹介されています.Karl Pearsonは,混合正規分布をあてはめることも提案しています.

 

正規分布の確率変数を変数変換して導出される分布族がいくつかあります.有名であろう変換には,Box-Cox変換,Johnson変換,SHASH変換があります.

一番,手軽で,特に回帰分析での目的変数の変換として使われている変数変換として,Box-Cox変換があります.Box-Cox変換は,例えば,回帰分析のテキストであるRyan (1997), Modern Regression Methods, John Wiley & Sons, pp.192-193に回帰分析で対数尤度に基づきでパラメータを選択する方法とともに紹介されています.

変数変換した時の尤度は,NISTのページ(https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm)でも紹介されています.NISTのページでは,二変量分析と一変量分析でのBox-Cox変換の利用について(https://www.itl.nist.gov/div898/handbook/eda/section3/eda335.htmおよびhttps://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm)も紹介されています.

 

一般のテキストではあまり見られないですが,製造業の品質管理での工程能力分析に関するテキストにおいて,Box-Cox変換と一緒に紹介される変換に,Johnson変換があります.Johnson変換は,例えば,Polhemus(2018) Process Capability Analysis: Estimating Quality, CRC Press, pp.124-125で紹介されています.工程能力分析では,平均ではなくて,分布の端のほうにおける分位点に興味があります.平均に対する推測とは異なり,仮定した母集団分布によって大きく結果が変わります.

 

入門者向けのテキストでは取り上げられていませんが,変数変換すると正規変量になる簡単な分布として,SHASH分布というものもあります.SHASH分布は,SignificanceというRSSが出している会員および一般向けの統計学雑誌で紹介されています(https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2019.01245.x).

  

ベータ分布を事前分布として二項分布を混合した分布として,ベータ二項分布があります.また,ガンマ分布を事前分布としてポアソン分布を混合した分布として,ガンマポアソン分布があります.

ベータ二項分布やガンマポアソン分布は,例えば,カテゴリカルデータのテキストであるAgresti(2013)Categorical Data Analysis, John Wiley & Sons, 14.3と14.4で紹介されています.

([2021/7/25追記] BDA322章が混合分布についてです.)

ベータ二項分布やガンマポアソン分布は,二項分布やポアソン分布を一般化した分布とみなせます.ベータ二項分布やガンマポアソン分布は,上記(2)で述べた擬似尤度とは別の,過大分散に対処する選択肢とみなせます.

 

このようにいくつかのテキストでは,従来の古典的なモデルを少し一般化することで,従来のモデルよりも少し広めの分布を扱えるような手法が紹介されています.

少し話はズレます.<いちいちその場でゼロから確率分布やモデルを考えるのではなくて,ある程度は既存のブロックが用意されていて,そこから自由に組み立てられる枠組みの方がいいや!>という発想もあると思います.そのような発想かどうかは私は分からず誤解かもしれませんが,松浦健太郎(2016)『StanとRでベイズ統計モデリング共立出版や,浜田宏・石田淳・清水裕士(2019)『社会科学のためのベイズ統計モデリング』朝倉書店では,現実世界を描写する様々なモデルをベイズモデリングという統一された枠組みで組み立てていく方法が紹介されています.

 

(5)モデルチェックを重要視する

「モデルチェック」とは,例えば.一変量の分布を調べるのにまずはヒストグラムを描いたり,二変量の相関を見るのにまずは散布図を描いたりすることを指します.このようなチェックの重要性は,多くのデータ分析のテキストで強調されています.

これが極端になって機械的になったハウツーとして,適用する検定を決めるための決定樹があります.吉村功『毒性・薬効データの統計解析−事例研究によるアプローチ−』サイエンティスト社 pp.23-25などに決定樹の例が乗っています.必ずしも絶対的なものではないと断られていますし,ドメイン知識が必要ですが,矢印を辿っていけば,分析者は決定樹が推奨する検定に行き着きます.

決定樹はやりすぎで,また,特に統計的検定により等分散性や正規性をチェックするのは新たな問題を産むだけだと私は思いますが,外れ値や分布のチェックは重要な作業でしょう.

 

(6)デザインによって仮定を満たすように努力する

Lehmann(2006: Revised 1st ed.)Nonparametrics: Statistical Methods Based on Ranks, Springer ,p.5では,統計的推測(特に検定)のモデルを,母集団モデルとランダム化モデルに分類しました.

いくつかのテキストでは,研究者自身がランダム性を導入し,これらモデルの大元となっている仮定(例えば,単純無作為抽出した場合はi.i.d,単純無作為割付けした場合は単純な並べ替え分布)を満たすようにすることが強調されています.

母集団モデルの仮定を満たすためのデザインとしては,無作為抽出が王道であり,主に社会調査のテキストで紹介されています(例えば,轟亮・杉野勇編 『入門・社会調査法』法律文化社,7章.同書では後述の無作為割付けについても触れられています).

一方,ランダム化モデルの仮定を満たすためのデザインとしては,無作為割付けが王道であり,例えば,医学分野での非臨床試験臨床試験についての統計分析のテキストで紹介されています(例えば,丹後俊郎(2018:新版)『新版 統計学のセンス:デザインする視点・データを見る目』朝倉書店,第3章.同書では無作為抽出についても触れられています).

  

(7)ノンパラメトリックな方法を用いる

ここでは,「ノンパラメトリック」は,モデルのパラメータ数が多い状態を指すことにします.ノンパラメトリックなモデルでは,古典的なモデル(例えば線形回帰モデル)よりも柔軟にデータを表現できるようになります.

ノンパラメトリック回帰モデルとして,例えば,Ryan(1997), Modern Regression Methods, John Wiley & Sons,10章では,カーネル回帰,loess,スプライン回帰といった手法が紹介されています.

ノンパラメトリックな状況では,パラメータそのものへの推測には,あまり興味がなくなり,従来のような少数のパラメータ(例えば母平均)の検定や推定といった枠組みではなくなるでしょう.また,特にオーバーフィッティングを避けるなどの工夫が必要となってきます.そのため,古典的なテキストではあまり取り上げられないようです.

 

最後に

このブログ記事では,検定や信頼区間の前提が成立していない時の対処方法として,統計学に関するテキストがどのような対処方法を提案しているのかを見ていきました.

 

これまでも根拠の乏しい恣意的な話でしたが,以下,より根拠ない私の個人的な印象です.

 

Twitterにて黒木さんが以下の指摘しています.

中学・高校・大学および企業での統計教育については私は全く知りませんが,<検定や信頼区間には仮想的な前提があって,あくまでその前提の枠組みでの確率計算である>ことを,従来のハウツー本や私自身は軽視していたかもしれません.

検定のp値は,<仮想的な世界での確率>と理解・説明されることが多いでしょうけれども,それでも(私は)理解・説明が不十分だったように思います.p値は,実際の計算上では<帰無仮説および前提のもとで計算された確率>ですが,「前提」が無視され<帰無仮説のもとで計算された確率>と多くの従来のハウツー本(および私自身)によって説明されてきたかもしれません.

信頼区間(および信用区間)になると,もっと状況が悪くなり,信頼区間(および信用区間)が仮想的な世界での確率計算から導出されていることを(少なくとも私は)忘れてしまっているようです.

上記した7つの対処方法を取るにしても,まずは,信頼区間(および信用区間)が仮想的な世界で計算されている点に注意することがスタート地点だと思います.これまでの理解・説明を改めることが(私は)必要なのかな,と感じました.

 

一方で,あまりにも仮想性ばかりを気にしすぎると,「そんな妄想での話をして何がうれしいのですか?」という疑問が(私は)生じます.やはり,ある程度は現実世界(や反事実世界)とリンクしていないと話が面白くありません.

また,仮想的であることだけを強調しすぎると,観測された95%信頼区間からは,「観測された信頼区間に真のパラメータが含まれているか,もしくは,観測された信頼区間に真のパラメータが含まれていないが今回は珍しいことが起こったか,もしくは,前提としたモデルが間違えているか,のいずれかだ」ぐらいの結論しか言えなくなります.

 

現実世界(や反事実世界)に即した話にするためのフォローとして,

  • 前提が現実世界に即していないことを,どう感知するか?
  • 前提が現実世界とズレていても大丈夫なロバスト性がどれぐらいあるか?
  • オーバーフィットに気をつけながらより幅広いデータに当てはまるようなモデルを組み立てるにはどうしたらいいのか?

といった疑問に答えられる手法群を提案していくことも大切なのかな,と(私は)感じました.