古典統計学・ベイズ統計・統計モデリングの関係について

2019年1月4日 9:30頃 追記

同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋).

 

 

ありがとうございます.

 

ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません.

 

特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークベイズモデルなどのさまざまなモデル全般による統計モデリングを考えたとき,WAICが必要になってくると思ったので,少し話題には出していますが私は理解できていない旨を述べています.

 

自由エネルギーによるモデル選択は,正則な階層型モデルに限定して,ABIC規準によるモデル選択を私はイメージしました.特に,TIMSACパッケージのBAYSEA関数を私はイメージしています(カルマンフィルターによって直接,最適化できるので,BAYSEA関数はあまり使われていないと思います).この場合のABICは,AICと同じように予測性能を見ているのではないかと私は考えました.

 

BICも考慮していません.(Laplace近似ができる正則モデルであるという前提だけではなくて)母数の事前分布として一様分布を仮定しないと(もしくは母数の事前分布の項を無視しないと)導出されないと私は理解しています.もしその理解が正しいとすると,さまざまなモデルを試すことに主眼を置いた統計モデリングBICはあまり相性が良くないのではないかと考えています.BICを誤解していたらすみません.

 

WBICは,WAICと同じく理解できていないから言及ができませんでした.これは単に私の無知によるものです.

 

この追加部分も含め,不備・間違い・誤解がいっぱいあると思います.
ご了承ください.

■<2019年1月4日 9:30頃追記部分おわり>

 

本ブログ記事は,参考にした文献・資料・Twitter(黒木玄さんや清水裕士先生のもの)・講義(統計数理研究所「リーディングDAT」講座)の記載が不十分です.黒木玄さんや清水裕士先生がTwitterなどで述べられたことに関しては,最初に引用している清水裕士先生のブログから辿ってください.

 

一気に書き殴ったので,話がまとまっておらず,数式がなくてすみません.

 

はじめに

清水裕士先生が以下のブログにて,頻度主義・ベイズ統計・統計モデリングの「真値」について述べています.

norimune.net


私自身は,ベイズ統計学,Karl Pearson, R.A.Fisher, Neymanなどの古典統計学,最近のデータサイエンスでの統計モデリングがどのような関係になっているのかに特に興味があります.

 

本ブログ記事では,第1章にて,古典統計学の世界で,パラメトリック/ノンパラメトリックや,小標本/大標本がどのように登場するかを述べます.そして,古典統計学がどのような流れにおいて整備されていったかを概略します.また,標本抽出論に基づく計量的な社会調査における集団(母集団)や真値について考えます.第2章にて,最近の統計モデリングにおいて古典統計学ベイズ統計学をどのように位置付けると穏当なのかを考えます.

 

結論としては...

  1. もともとは,ベイズ統計の用語や概念を使わずに推測を行うために,古典統計学(Karl Pearson,R.A.Fisher,Neymanなどの統計学)の道具 ー尤度・信頼区間・p値ー が整備された.
  2. 最近の統計モデリングの枠組みでは,特に母数の推定ではなくて予測性能の良さに興味がある場合には,古典統計学でのパラメトリックなモデルでの分析と,ベイズ統計モデルでの分析に,大きな違いはない.

...と私は(私も)思いました.1.は黒木さんがTwitterで紹介された赤池(1980)*1のp.8で触れられている見解に近いと思います.2. は清水先生(および清水先生が引用されている黒木さん)とおそらく同じ主張だと思います.誤解していたらすみません.

 

なお,私自身は,統計学を研究しているわけではなく,また,実務の統計分析を行っているわけでもなく,教科書レベルの統計知識しかない会社員です.

  

第1章 古典統計学の特徴

まず,前提知識として押さえておきたいのは,<パラメトリックな方法やベイズ統計でも大標本理論が用いられることはあるし,ノンパラメトリックな方法でも小標本理論が用いられることもある>という点です.

大標本理論に基づくパラメトリックな方法の例

例1)最尤推定:通常の最尤推定は,①母集団分布として少数の母数で表現される確率分布を仮定し,②それらの少数の母数を推定・検定します.その意味においてパラメトリックな方法です.

また,最尤推定で普及している計算法(対数尤度を最大化することで点推定値を求め,Wald法・スコア法・尤度比法のいずれかから推定・検定する枠組み)で得られた結果は,一般的には,漸近的な効率性,漸近正規性,一致性などでしか正当化されないので,最尤推定全般は大標本理論に基づいています.ただし,確率分布によっては最尤推定量がUMVU推定量(一様最小分散不偏推定量)であることもある(例:二項分布やPoisson分布での点推定)ので,それらの確率分布では点推定量に関しては小標本理論とも言えます.

さらに余計なことを述べると,ロジスティック回帰,Poisson回帰などの古典的なパラメトリックモデルは,(separationなどの問題や,説明変数間の1次従属性がない限り)正則なモデルです.一方,混合正規分布モデルなどは,特異なモデルです.私の能力をはるかに超えているので,このブログ記事ではその話題には触れません(渡辺澄夫先生の本を読めば理解できるそうなのですが,私の理解力をはるかに超えています).

 

例2) Pearson型分布のモーメント推定:初期のKarl Pearsonが行っていたような,Pearson型分布の母数をモーメント推定する分析も,①母集団分布は少数の母数で表される確率分布であると仮定し,かつ,②それらの少数の母数を推定する,という分析ですので,パラメトリックな方法です.

また,Pearson型分布全般においてはモーメント推定による点推定量の良さはもっぱら一致性でしか正当化できないので,この状況でのモーメント推定は大標本理論に基づいています.

大標本理論に基づくベイズ推定の例

例)Laplace近似:Karl Pearsonの時代には,(中心となる考え方はpopulation v.s. sampleの枠組でありながら数式の流れはベイズ統計に沿って,)尤度関数のLaplace近似によって,母数の区間推定や統計的検定を行っていました.Laplace近似は大標本理論に基づいています.

なお,事前分布として一様分布を指定したときのLaplace近似によるベイズ推定の結果(MAP推定値や信用区間)は,最尤推定の結果(最尤推定値や信頼区間)と同じになります.

小標本理論に基づくノンパラメトリックな方法

例1)ノンパラメトリックな推定量としての標本平均:母平均の点推定量としてみたとき,標本平均は,確率分布に何も仮定しないときのUMVU推定量です.つまり,母集団分布に何も仮定しない状況では,(たとえ小標本であっても)標本平均は,ある観点において点推定量として良い性質があります.

 

例2)正確な並び替え検定:後述する橘(1997)などが推奨した,正確な並び替え検定は,ノンパラメトリックな検定ですが,小標本理論に基づいています.

 

大標本理論かどうかは相対的なもの

大標本理論かどうかは,近似の良さという観点から見た場合,相対的なものです.

たとえば,Karl Pearsonの時代には,母集団分布として2変量正規分布を仮定した最尤推定の枠組み*2において,変換なしの相関係数に対して,ヘッセ行列から漸近分散を求め,それから区間推定や統計的検定を行っていました.R.A.Fisherは,(2変量正規分布に従っているときの)相関係数の正確な標本分布を求めましたが(←こちらは小標本理論),z変換という方法での近似も提案しました.z変換は大標本理論ですが,Karl Pearsonの方法よりはだいぶ近似が良いです.

 

パラメトリックセミパラメトリック・ノンパラメトリック

世の中全般において「パラメトリック」・「セミパラメトリック」・「ノンパラメトリック」という用語がどう使い分けられているのか私はよく分かりません.しかし,数理的には,以下のような区分を設けると分かりやすいのではないかと私は(私も)思っています.

  • パラメトリックな方法」は,母集団の確率分布が(nに比べて)少数の母数によって表されると仮定する方法だと思います.たとえば正規分布であれば,たった2個の母数で確率分布が表されるので「パラメトリックな方法」と言えます.
  • 母集団の確率分布は多数の母数でしか表現できないけれど,推定・検定するのが少数の母数である場合を,「セミパラメトリックな方法」と言うのが誤解が少ないのではないかと思います.これは,母集団分布に特定の確率分布(少数のパラメータで表現される確率分布)を仮定しないという意味では「ノンパラメトリック」ですが,少数のいくつかの母数を推定するという意味では「パラメトリック」です.
  • 確率分布が多数の母数でしか表すことができず,かつ,推定や検定の対象も多数の母数でしか表現できない場合を,「ノンパラメトリックな方法」と呼ぶのがスッキリすると思います.

たとえば,母集団分布として特定の確率分布を仮定しないで(=母集団分布として少数の母数で表現できる確率分布を仮定しないで)母平均という母数だけを推定・検定する場合は,上記の区分では「セミパラメトリックな方法」となります.

 ノンパラメトリックなモデルでは通常の最尤推定は破綻する

ここで注意しないといけない点があります.ノンパラメトリックなモデル,つまり,母数の個数が非常に多いモデルでは,その母数の推定に関して,最尤推定における漸近的性質は悪くなります(nが増えても母数の個数が多いと,母数1つあたりのnが少なくなり,小標本のようになります).

これを避けるためには,いくつかの技法があります.

  1. 母数に対して罰則を課し,罰則付き最尤推定を行う.
  2. 母数に対して事前確率の制約を課し,ベイズ推定を行う.なお,対応させた事前分布を設定すれば,そのベイズ推定のMAP解は,1の罰則付き最尤推定と同じになる.詳しくは,ここでは省きます.データサイエンスの授業(たとえば統計数理研究所「リーディングDAT LB-1」など)を受講してください.
  3. 分析の目的が「予測」にあるならば,母数の解釈はあきらめ,予測性能だけを見てモデルの選択を行う.たとえば,学習データから推定されたノンパラメトリックなモデルを,検証データにて評価し,モデル選択を行う.なお,この作業は,上記の1や2でも行われる.罰則の大きさや事前分布がどのようにすればいいかが,データが得られる前には通常は分からないからである.詳細は省略いたします.
  4. セミパラメトリックな方法(すべての母数を推定するのではなく,一部の少数の母数だけを推定するという戦略)に切り替え,層別分析・条件付き推定・マッチングなどを行う(多数の母数を,層別化や条件付けで消し去ることを試みる).
  5. 推定はあきらめ,ノンパラメトリックな検定だけを行うことにする.

このうち,もし分析の目的が「予測」にあるならば,4や5の回避策は無意味です.予測が主眼であるなら,1.~3.の戦略をとることになるのでしょう.

 

 t検定に対する3つの解釈

パラメトリックな検定の代表格としてハウツー本では取り上げられるt検定も,見方によっては,パラメトリックセミパラメトリック・ノンパラメトリックのいずれの方法とも言えると私は思います.この点は,ごく初歩的なハウツー本には記載がないけれど,重要ではないかと個人的には思っています(以下の説明はt検定に対するメジャーな説明ではないのでご注意ください.).

  • パラメトリックな検定としてのt検定:母集団分布として正規分布を仮定するとt検定を導出できます.この場合のt検定は,小標本でも成立するパラメトリックな方法です.たとえば独立な2群の場合,このパラメトリックなt検定には,主に以下の3つの考え方があります(以下の3.は仮説が母数だけで表現されていないため,「パラメトリック」と呼んでいいかどうか微妙ですね...).
  1. 正規性と等分散性を仮定して,「 H_0: \mu_1 = \mu_2」を帰無仮説とする.
  2. 正規性だけを仮定して,「 H_0: \mu_1 = \mu_2 かつ \sigma_1 = \sigma_2」を帰無仮説とする.
  3. 上記のすべての仮定を帰無仮説に含めて,「 H_0: 2つの群は同じ正規分布に従う」を帰無仮説とする.

 

  • セミパラメトリックな検定としてのt検定:正規分布を仮定しないでも,分散が有限であれば(あと,独立な2標本の場合ならば,等分散であるか,もしくは,異分散であっても群の標本サイズがほぼ等しければ),t検定は母平均に対する妥当な検定に(漸近的には)なります.たとえば独立な2標本に対するt検定の場合,前述の仮定のもとで,「 H_0: \mu_1 = \mu_2」といった帰無仮説に対する妥当な検定に(漸近的には)なります.もしくは,分散に対する設定を前提ではなく帰無仮説に置いて,「 H_0: \mu_1 = \mu_2 かつ \sigma_1 = \sigma_2」とした帰無仮説に対する妥当な検定に(漸近的には)なります.これらのセミパラメトリックなt検定は,漸近的な検定であり,大標本理論に基づいています.
  • ノンパラメトリックな検定としてのt検定:正規分布を仮定せず,かつ,(少数の)母数に対するものではなく「 H_0: F_1(x) = F_2(x)」のような帰無仮説に対する検定としても,t検定は(漸近的には)妥当な検定です.特に,t検定は,無作為割り付けが行われている場合での並び替え検定の近似になっています.この無作為割り付け実験での帰無仮説は, i = 1,2,3,\dots,nの実験協力者に対して,「 H_0: y_{10} = y_{11} かつ y_{20} = y_{21} かつ  \dots y_{n0} = y_{n1}」と表現されます.ここで,y_{i0}は,対照群に割り付けられたときの実験協力者 iの応答,y_{i1}は,処置群に割り付けられたときの実験協力者 iの応答です.これらのノンパラメトリックなt検定も,漸近的な検定であり,大標本理論に基づいています.

t検定打破の試み

パラメトリックなt検定や,漸近近似によるノンパラメトリックなt検定ではなくて,正確な並び替え検定を心理学で広めようという試みが日本で(日本でも?)あったようです(私は以下の書籍によってのみ知っただけで,直接は知りません).橘敏明(1997)『確率化テストの方法―誤用しない統計的検定―』(日本文化科学社)という本が出版されています.並び替え検定は,心理学実験で行われている無作為割り付けと相性がよさそうなので,パラメトリックなt検定より,そのアイデアを理解・受容しやすいと私も想像するのですが,普及しなかったようです.

 

Fisherの正確検定に対する2つの解釈

Fisherの正確検定も,場合や解釈によって,パラメトリックな検定としても,ノンパラメトリックな検定としても,見ることもできます.

パラメトリックな検定としてのFisherの正確検定

Fisher正確検定は,以下のような4つの状況でのパラメトリックな検定となっています.

 

  1. 4つの独立なポアソン分布において,「 H_0: \lambda_{11}/\lambda_{12} = \lambda_{21}/\lambda_{22}」を検定する.
  2. 2つの独立な二項分布において,「 H_0: \pi_1/(1-\pi_1) = \pi_2/(1-\pi_2)」(つまり,「H_0:\pi_1 = \pi_2」)を検定する)
  3. 1つの多項分布において,「H_0: \pi_{11}/\pi_{12} = \pi_{21}/\pi_{22}」を検定する.
  4. 1つの超幾何分布において,「H0: オッズ比 = 1」を検定する.

 

 もし,有意と非有意の境界例においてサイコロを振って有意/非有意を決めれば(この処理を「確率化」と言います),Fisher正確検定は,文字通りに「正確」な検定となり,かつ,UMPU検定(一様最強力不偏検定)となります*3

②ノンパラメトリックな検定としてのFisher正確検定

Fisher(1935)『実験計画法』の第2章で述べられている紅茶の仮想実験のような状況では,Fisherの正確検定はノンパラメトリックな検定です.

 

t検定に対するR. A. Fisherの心変わり

R.A.Fisherは,n次元の幾何学に基づき,正規分布に従う母集団から抽出された標本平均がt分布に従うこと(=Studentの予想)を数理的に証明しました.1925年の『研究者のための統計的方法』では,序において「 Not only does it take a cannon to shoot a sparrow, but it misses the sparrow! 」(拙訳:「それ[従来の統計的手法]は,ツバメを大砲で撃ち落そうとしているだけでなく,ツバメを狙ってさえもいない!」と述べ,従来の統計的手法(おそらくはKarl Pearsonのような大標本理論に基づく方法)を批判しています*4.このFisher1925年本での売りのひとつは,正規分布を仮定したt検定,つまり,パラメトリックなt検定でしょう.

しかし,正規分布を仮定しないとt検定は妥当ではないだろうという批判が,Egon Pearsonなどから出されました.おそらく,その批判に対応してだと思いますが,1935年頃になると,t検定を並び替え検定の近似ととらえ,正規性の前提がなくてもt検定は使えるだろうとFisherは主張するようになります.たとえば,1935年の『実験計画法』第3章では対応のあるt検定が説明されていますが,そこでは並び替え検定のp値と,対応のあるt検定のp値が似た値になっていることが例示されています(この第3章も,いつものR.A.Fisherの説明と同様,非常に話がこんがらかっていて,後の版でノンパラメトリック検定に対する批判が追加されています).

Karl PearsonとR. A. Fisherの連続性

パラメトリック統計学としてみた場合,Karl Pearsonと前期R.A.Fisherのあいだの考え方には違いがほとんどないと私は考えます.Karl Pearsonは,population v.s. sampleの枠組を重視し,(R.A.Fisherから見れば数理的に曖昧と映ったのでしょうが)標本抽出理論に基づいて,計量生物学や優生学などのデータを分析していました."population"や"sample"という用語は,Karl Pearsonの時代にはすでに普及・確立していました.

Karl Pearsonのパラメトリックな方法はどこから来たのか?

また,"parameter"という用語は使わなかったものの,"statistical constant", "frequency constantなどの用語をKarl Pearsonは使っていました.Karl Pearsonがそのような統計的な常数(定数)に目を向けるようになったきっかけは,Galtonからの影響でしょう.GaltonやKarl Pearsonは,Darwinからの影響を受けつつ,集団を対象とした社会統計での思考形式 ― <個体でのばらつきは不規則で定式化できないが,集団レベルで観察すると安定した結果が得られる>という統計的思考― を,計量生物学や優生学に輸入しました.

社会統計における集団観察(=大量観察)で発見された集団での安定性・規則性の考えを,GaltonやKarl Pearsonは計量生物学や優生学に流用したと言えます.

しかし,Karl Pearsonの数理的な記法や導出は,ベイズ統計とは完全に分離されていませんでした.ベイズ統計における事前分布を仮定せずに,population v.s. sampleの枠組みを綺麗に説明しようとしたのが,R.A.Fisherだと私は考えます.ベイズの用語や概念を避けて推測を行う道具として,尤度・信頼区間(R.A.Fisherの用語ではfiducial limit)・p値という3点セットを綺麗に正当化したのは,R.A.Fisherの業績であると私は考えます.<ベイズ統計を使わずに,これまで使われている数理統計学の道具をどのように正当化できるか?>という問題をR.A.Fisherは綺麗に整理した,と言えるでしょう.尤度とp値に関しては,黒木玄先生がTwitterにて紹介した赤池(1980, p.8)*5に,すでに以下のように解説されています.

「最尤法ならびに有意性検定に関するフィッシャーの理論の展開は,ベイズの理論をいたずらに無視することなく,これを十分に理解しながら,その難点を回避するという形で具体化されている.」

なお,細かく述べると,前期Fisherと後期Fisherでは,いろいろと違いがあると私は考えています(LehmanもFisherのいくつかの心変わりについて指摘している).前期Fisherと後期Fisherの違いについての考察は別の機会に譲りたいと思います.

 

日本における「母集団は存在するか?」論争

母集団が存在するものかどうか,という議論が少なくとも日本ではありました.社会統計学派の蜷川虎三は,「存在たる集団」という用語を打ち出し,実際に世の中に存在している集団(mass, aggregate)を分析するのが統計学の主な任務であると規定いたしました(...こんな雑なまとめでは戦前・戦中・戦後の社会統計学の変遷は言い表せないのですが,調べていないので分かっていません.ごめんなさい!).

一方,戦中・戦後の推計学派(増山元三郎・北川敏男など)は,初期R.A.Fisherの「仮説的無限母集団」の考えに強く影響を受けたせいか,<母集団は技術的・便宜的に決められるものであり,たとえ全数調査であっても,得られたデータは標本とみなすことができる.そして,そのような見方をするのが科学的である>という立場でした(...と思います.ここも詳しく調べていないので,かなり粗雑な記述となっています).

計量的社会調査における「母集団」とは何か?

 (「存在たる集団」論ではなく)標本抽出論の技術的な立場で見た場合,計量的な社会調査における「母集団」が何であるかは自明ではないと思います.

社会調査においては「母集団」をいくつかに分けていることからも,<母集団の定義が社会調査の分野で自明でない>ことを類推できると思います.理想的な状態において研究者が調べたい母集団は「目標母集団」と言われています.抽出に用いる個体がリストアップされたもの(日本の学術系・政府系の調査であれば,住民基本台帳や選挙人名簿が使われることが多い)を「抽出枠」と言い,抽出枠に記載されている集団を「枠母集団」と言います.枠母集団のなかから抽出されたもののうち,回答拒否や無回答などがなく,調査に協力してくれた人々の回答が研究者が観察できるデータです.このような調査において,何が「母集団」となっているかは自明ではないと思います.たとえば,住民基本台帳や選挙人名簿を枠母集団とした場合,(たとえ「2019年1月1日0:00時点」と時点を区切ったとしても)「日本人」が母集団になっているとは言い切れないでしょう.

さらに細かいことを言うと,林知己夫らは,1950年頃から,universeとpopulationを別の概念として扱おうとしました.この区分は日本でさえも普及しなかったようです.林らによるuniverseとpopulationの区別についても別の機会に譲りたいと思います.

 

計量的社会調査において真値はあるのか?

 一方で,計量的な社会調査(特に質問紙調査)において真値が何であるかも自明ではありません.

もちろん,一方の極には,真値が存在し,それを測定するための調査誤差をなるべく減らそうという立場があります.たとえば,satisficingを調べる研究などは,前提として<真値がある>と考えているのでしょう(たぶん).

しかし,もう一方の極には,ブルデュー*6のように,<世論というものは,世論調査によって作られるものだ>という考えもあります.ブルデューの主張のひとつは,<世論調査で得られる世論は,実際の社会における意見とは異なり,「純然たる人工物」であり,世論調査によって「幻想」や「平均的意見」が作られている>ということです.このようなブルデューの考えは,<社会のなかに世論の真値というものが存在しており,それを世論調査が測定している>という見方とは異なっていると思われます.

 

以上のような議論を見ると(私自身は調査をしたことがなく,あくまで教科書で仕入れただけの知識なので的外れでしょうけれども),標本抽出にもとづく計量的社会調査では,「母集団」や「真値」が何であるかは明確な同意がされていないと私は(私も)考えます.

 

現在,<集団とは何か?>,<集団が存在するか否か?>,<真値とは何か?>という議論はなされなくなったと思います.想像の範囲を超えませんが,<常識的に考えて集団や真値らしきものは存在しているだろうけど,分析者が操作的に作り出している側面もあるよね>ぐらいの曖昧なかたちで同意がなされているのではないでしょうか?(よく分からない...)

 

 

 

第2章 統計モデリング時代の幕開け

私自身は統計モデリングが何なのかよく分かっていないのですが,伊庭幸人(2018)「平均値から個性へ;統計的モデリングのひらく世界像」(『ベイズモデリングの世界』岩波書店)や,伊庭幸人(2018)「全体説明」リーディングDAT LB-1.統計モデリング入門を読みますと,統計モデリングには3つの特徴があるのだろうな,と私は感じました.話を単純化していますし,私が誤解しているかもしれないので,正確な情報は,前述の書籍(『ベイズモデリングの世界』)を読んだり,リーディングDAT講座を受講したりしてください m(_ _)m.

  1.   モデル選択を行う.
  2. (集団だけではなく)個体の振る舞いもモデリングする.
  3. (既存の手法をマニュアルに沿って行うのではなく)状況に応じてモデルを分析者自身が立ててる.

これから3つは相互に関連しているのですが,以下では別々に考えていきます.

 

統計モデリング①:モデル選択

19世紀末でも,<統計モデルは単なる近似である>という考えの源泉はありました.統計学ではなくて科学全般に対するエッセイ(『科学の文法』)ですが,<科学というものは,自分たちの意識に上がったものを「思考の節約」によって描写*7する作業である>という旨を,Karl Pearsonは主張していました.

さらにKarl Pearsonは,ある種のモデル選択も行っていました.一変量の母集団分布に関して,Pearson型分布と呼ばれるものをあてはめ,その適合度をカイ2乗適合度検定にて確かめる,といった処理(特にデータが正規分布に従っているかどうか)もしていました.

また,工業統計学(実験計画・応答曲面法・ARIMAモデルなど)での著名な統計家であるG.E.P. Boxは,1976年論文*8においてR.A. Fisherはデータと仮説のあいだを往復していたと主張しています.

しかし,Karl Pearson, 前期R.A. Fisher, Neymanが提唱したパラメトリックな統計分析は,その手法だけを取り出して見たときには,①少数の母数からなる確率分布を仮定し,②その母数を推定・検定する,という枠組だったと言えます.

また,1950年頃までには,たとえば回帰分析などで偏回帰係数が有意かどうかを判断するといった,ある種の「モデル選択」が行われていましたが,その手順は,現在におけるモデル選択とは異なった考えに基づいたものでしょう.

 

1970年頃からのFPE,Cp,ジャックナイフ推定などの各種のモデル選択規準の提案,特にAICの提案に伴い,新しい時代が幕開けたと私は(私も)感じます.それ以前では(正確にはそれまでのパラメトリックセミパラメトリックなモデルに基づく分析では),研究者によって与えられた1つのモデルのなかで,そのモデルの母数を推定するものでした.ところが,AIC統計学においては,複数の候補となっているモデルから,予測性能がよいモデルを選択するということが行われます.

また,一方で,予測が問題となる状況においては,データ量の増加とモデルの複雑化に伴い,学習データ(訓練データ)でモデルを推定し,モデルの予測性能を検証データ(テストデータ,評価データ)で評価するといった処理を行うようになりました.

 

現在のデータサイエンスの授業では,「バイアス-バリアンス」ジレンマや,オーバーフィッティング(過学習,過剰適合)などが強調されます*9

AIC統計学は,1つ1つのモデルを推定する計算においては,確率分布の母数を推定しているという点は従来のパラメトリックな手法と同じです.しかし,以下の2点で大きく異なります.

  1. どのモデルが良いかを選択する.
  2. その際,母数に対する推定量の良さ(たとえば,母数の不偏性・一致性・効率性・UMPU性など)を問題とせず,将来のデータ(=検証データ)に対する予測性能の良さ*10を問題とする.ですので,たとえばリッジ回帰やLASSO回帰などを筆頭に,母数の推定量としてはUMPU推定量となっていないもの(つまり,推定量としてはあまり芳しくないかもしれないもの)でも,AICから見ると良い推定になっていることはいくらでも登場することになる.

 

要約すると,古典統計学が問題にしてきた<母数の推定>という立場から離れ,予測性能がよいモデルを選択する,という立場にあるのが,統計モデリングの特徴の1つなのでしょう.

ここで,パラメトリックなモデルでも正則モデルではない特異モデル(私が分からないので飛ばします)や,ベイズ統計モデルも予測には役立つだろうと考え,

に注目して,これらの予測分布/確率分布の予測性能を問題にするとすれば,ベイズ統計と最尤推定の違いはあまりなくなります*11.この立場が,清水裕士先生,および,清水裕士先生が引用されている黒木玄先生の主張だと思います(誤解していたらすみません).

...と偉そうに書きましたが,数学(特異点解消定理,ゼータ関数 ...等々の事柄)がまったく分からないので,WAICをまったく理解していません....

 

統計モデリング②:個性を考慮した統計学

Karl Pearsonが"population"という言葉を用いた当初,"population"は"individual"と対比された概念でした.GaltonやKarl Pearsonは,<個性豊かで不規則な個体を1つ1つ詳細に見ても規則性は分からない.そこで集団レベルで見て,集団レベルの規則性を捉えよう>という統計的思考(集団的思考)を,その当時の社会統計学から輸入しました.

GaltonやKarl Pearsonの枠組でも<個体は異質なものであり,個性がある>ことが大前提となっていました.Galtonの枠組は,心理学で「個人差心理学」と呼ばれている分野での方法論の1つとなっています.しかし,GaltonやKarl Pearsonがもっぱら問題とするのは,集団レベルでの統計的常数(=母数)です.

初期R.A.Fisherは,GaltonやKarl Pearsonの集団的思考を(特に,パラメトリック統計学優生学・集団遺伝学での分野では)引き継ぎました.しかし,遅くても1930年頃になると,農業試験での土壌の異質性を問題とするようになりました.そして,そのような異質性があったとしても,平均的な因果効果を検定できる枠組みとして,無作為割り付けを主張するようになりました.

以上のように,個性があることは当たり前のこととして古典統計学でも扱われてきました.そして,個性があるからこそ,集団的レベルに注目するようになりました.古典統計学のこの枠組みでは,前述したように,注目されるのはもっぱら集団レベルでの規則性です.そして,個性はもっぱら,平均からの偏差(deviation)としてのみ扱われます*12

一方,近年の統計モデリングにおいて個性を‌表現する場合には,「平均からの差」以上の形で表現するのだと思います.個性を積極的にモデリングするときには,古典統計学のモデルも使えますが,ベイズ統計学との相性がいいのでしょう(ベイズ統計モデルでは,1つ1つ個性を確率変数で表現することにより,モデルとして個性を定式化できるから).

 

統計モデリング時代③:分析者がカスタマイズする統計学

私が若い頃にも,統計モデリングを行うパッケージはありました.たとえば,王立統計学会のGLIM (Generalized Linear Interactive Modeling)では,一般化線形モデルをあてはめることができました(20年程前).また,私よりも前の時代では,1970年代頃にはdecomp関数などが含まれているTIMSACパッケージが統計数理研究所から配布されていました.

しかし,現在は,それよりも数多くの統計モデルが,RやPythonなどを用いて簡単にあてはめることができるようになりました.特に,ベイズ統計モデルに関しては,MCMCの普及以降,ユーザー自身が自分で任意の事前分布と尤度を指定できるようになったようです.

古典統計学にしろ,ベイズ統計学にしろ,実に多彩なモデルのラインアップが揃ってきました.わざわざ古典統計学ベイズ統計学の2分類でそれらの豊富なモデルを区別しなくてもよくなってきたのでしょう(←暴論?).

 

結論(再掲)

結論としては...

  1. もともとは,ベイズ統計の用語や概念を使わずに推測を行うために,古典統計学(Karl Pearson,R.A.Fisher,Neymanなどの統計学)の道具 ー尤度・信頼区間・p値ー が整備された.
  2. 最近の統計モデリングの枠組みでは,特に母数の推定ではなくて予測性能の良さに興味がある場合には,古典統計学でのパラメトリックなモデルでの分析と,ベイズ統計モデルでの分析に,大きな違いはない.

...と私は(私も)思いました.1.は黒木さんがTwitterで紹介された赤池(1980)*13のp.8で触れられている見解に近いと思います.2. は清水先生(および清水先生が引用されている黒木さん)とおそらく同じ主張だと思います.誤解していたらすみません.

 

 付録:悲しみ

きっとWAICが理解できないと,統計モデリングにおける古典的統計モデルとベイズ統計モデルの統一性を体感できないんじゃないかと思います.代数幾何を1つも知らない人間がどこから勉強すればいいのでしょうか....

 

 以上です.

 

 

 

*1:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12

*2:Karl Pearsonの導出はベイズ的であり,Karl Pearson自身は「最尤推定」と言っていませんでした.「最尤推定」という用語を産み出したのはR. A. Fisherですが,R. A. Fisher以前から最尤推定の計算は行われていました.R.A.Fisherの功績は,ベイズ統計学の用語や概念を使わずに「最尤推定」を正当化した点にあると私は思います.

*3:実際にはサイコロを降って検定結果を決めることは行われておらず,保守的なp値や,mid-P値が報告されることが多いです

*4:Lehmanが指摘していますが,R.A.Fisherの1925年本で紹介されているすべての分析が小標本理論に基づくものではありません.カイ2乗検定や,相関係数z変換なども紹介されているのですが,それらは大標本理論です.

*5:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12

*6:田原音和訳(1991)「世論なんてない」『社会学社会学藤原書店

*7:Karl Pearsonは「記述」という言葉を使いましたが,「記述」と言ってしまうと,「推測」に対立する「記述統計学」をイメージしてしまうので,ここでは「描写」と述べました.Karl Pearsohは,その当時の統計理論の中心的柱は標本抽出理論であると考えていました.Karl Pearsonが主に行っていた統計学は,今でいう「記述統計学」ではありません.

*8:Box, G.E.P. (1976), Science and Statistics, Journal of the American Statistical Association, 71(356), pp.791-799. "Since all models are wrong the scientist cannot obtain a "correct" one by excessive elaboration."という言葉で有名な論文です.

*9:昨年度(2018年)に統計数理研究所様の「リーディングDAT」のLA-1, LB-1, LB-2講義に参加したのですが,これらの考えがかなり強調されていました.より正確に言えば,「リーディングDAT」講義では,予測性能の良さだけを強調されていたわけではありません.たとえば,通常の重回帰分析においても,AICなどでのモデル選択が良い場面(予測性能を問題とした多項式などの次数選択)と,事前にモデルを設定すべき場面(因果推定において有力な交絡因子は含めておくべき)が解説されていました.講義内容は盛りだくさんで,適切に要約できないので詳しくは受講してください.

*10:もう少し正確に述べると,AICは,<学習データから推定されたモデルに基づいて検証データから計算された対数尤度>の期待値の近似不偏推定量です.

*11:<母数の推定>という立場に立っても,設定によって,たびたび,古典統計学ベイズ統計学の結果は同じになることがあります.

*12:それ以前での物理実験や天体観測などでは,平均からの差は「真値からの誤差」とみなされていました.一方,Galton以降では,平均からの差は誤差ではなくて,ある種の個性として扱われます.Galtonは,その当時にあった"probable error"という用語を"probable deviation"というべきと主張したこともあります.この用語は流行りませんでしたが,K. Pearsonの"standard deviation"や,R.A. Fisherの"variance"という用語は普及しました.

*13:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12