自習メモ:AIC導出の大まかなイメージ

線形回帰モデルを主にして,AICが何を求めているのか,どうやって導出しているかを自習したときのメモを公開します.昔,非公開で作成した自習用メモを,本日,大幅に修正したものです.資料中で言及している伊庭先生の講義動画をコピペして10倍ぐらいに薄めたものになっています(ただし,私が誤解して曲解している個所があるかもしれません).

まとまりがなく無駄に長い文章なのですが,間違いなどがあればご指摘していただけるとありがたいです.

 

aic_2nd.pdf - Google ドライブ

(上記リンクは,Googleドライブに保存されたPDFファイルです.)

 

古典統計学・ベイズ統計・統計モデリングの関係について

2019年1月4日 9:30頃 追記

同ブログ記事に対して黒木さんからTwitterにて以下のようなご指摘をいただきました(ごく一部のツイートだけを抜粋).

 

 

ありがとうございます.

 

ご指摘通り,このブログ記事では(最近の統計モデリングにおける特徴のひとつとして)予測性能の評価のほうしか取り上げておらず,特にAICしか触れていません.

 

特異モデルでも妥当であると言われているWAICへの言及ができなかったのは,私がまったく理解していないだけからです.ニューラルネットワークベイズモデルなどのさまざまなモデル全般による統計モデリングを考えたとき,WAICが必要になってくると思ったので,少し話題には出していますが私は理解できていない旨を述べています.

 

自由エネルギーによるモデル選択は,正則な階層型モデルに限定して,ABIC規準によるモデル選択を私はイメージしました.特に,TIMSACパッケージのBAYSEA関数を私はイメージしています(カルマンフィルターによって直接,最適化できるので,BAYSEA関数はあまり使われていないと思います).この場合のABICは,AICと同じように予測性能を見ているのではないかと私は考えました.

 

BICも考慮していません.(Laplace近似ができる正則モデルであるという前提だけではなくて)母数の事前分布として一様分布を仮定しないと(もしくは母数の事前分布の項を無視しないと)導出されないと私は理解しています.もしその理解が正しいとすると,さまざまなモデルを試すことに主眼を置いた統計モデリングBICはあまり相性が良くないのではないかと考えています.BICを誤解していたらすみません.

 

WBICは,WAICと同じく理解できていないから言及ができませんでした.これは単に私の無知によるものです.

 

この追加部分も含め,不備・間違い・誤解がいっぱいあると思います.
ご了承ください.

■<2019年1月4日 9:30頃追記部分おわり>

 

本ブログ記事は,参考にした文献・資料・Twitter(黒木玄さんや清水裕士先生のもの)・講義(統計数理研究所「リーディングDAT」講座)の記載が不十分です.黒木玄さんや清水裕士先生がTwitterなどで述べられたことに関しては,最初に引用している清水裕士先生のブログから辿ってください.

 

一気に書き殴ったので,話がまとまっておらず,数式がなくてすみません.

 

はじめに

清水裕士先生が以下のブログにて,頻度主義・ベイズ統計・統計モデリングの「真値」について述べています.

norimune.net


私自身は,ベイズ統計学,Karl Pearson, R.A.Fisher, Neymanなどの古典統計学,最近のデータサイエンスでの統計モデリングがどのような関係になっているのかに特に興味があります.

 

本ブログ記事では,第1章にて,古典統計学の世界で,パラメトリック/ノンパラメトリックや,小標本/大標本がどのように登場するかを述べます.そして,古典統計学がどのような流れにおいて整備されていったかを概略します.また,標本抽出論に基づく計量的な社会調査における集団(母集団)や真値について考えます.第2章にて,最近の統計モデリングにおいて古典統計学ベイズ統計学をどのように位置付けると穏当なのかを考えます.

 

結論としては...

  1. もともとは,ベイズ統計の用語や概念を使わずに推測を行うために,古典統計学(Karl Pearson,R.A.Fisher,Neymanなどの統計学)の道具 ー尤度・信頼区間・p値ー が整備された.
  2. 最近の統計モデリングの枠組みでは,特に母数の推定ではなくて予測性能の良さに興味がある場合には,古典統計学でのパラメトリックなモデルでの分析と,ベイズ統計モデルでの分析に,大きな違いはない.

...と私は(私も)思いました.1.は黒木さんがTwitterで紹介された赤池(1980)*1のp.8で触れられている見解に近いと思います.2. は清水先生(および清水先生が引用されている黒木さん)とおそらく同じ主張だと思います.誤解していたらすみません.

 

なお,私自身は,統計学を研究しているわけではなく,また,実務の統計分析を行っているわけでもなく,教科書レベルの統計知識しかない会社員です.

  

第1章 古典統計学の特徴

まず,前提知識として押さえておきたいのは,<パラメトリックな方法やベイズ統計でも大標本理論が用いられることはあるし,ノンパラメトリックな方法でも小標本理論が用いられることもある>という点です.

大標本理論に基づくパラメトリックな方法の例

例1)最尤推定:通常の最尤推定は,①母集団分布として少数の母数で表現される確率分布を仮定し,②それらの少数の母数を推定・検定します.その意味においてパラメトリックな方法です.

また,最尤推定で普及している計算法(対数尤度を最大化することで点推定値を求め,Wald法・スコア法・尤度比法のいずれかから推定・検定する枠組み)で得られた結果は,一般的には,漸近的な効率性,漸近正規性,一致性などでしか正当化されないので,最尤推定全般は大標本理論に基づいています.ただし,確率分布によっては最尤推定量がUMVU推定量(一様最小分散不偏推定量)であることもある(例:二項分布やPoisson分布での点推定)ので,それらの確率分布では点推定量に関しては小標本理論とも言えます.

さらに余計なことを述べると,ロジスティック回帰,Poisson回帰などの古典的なパラメトリックモデルは,(separationなどの問題や,説明変数間の1次従属性がない限り)正則なモデルです.一方,混合正規分布モデルなどは,特異なモデルです.私の能力をはるかに超えているので,このブログ記事ではその話題には触れません(渡辺澄夫先生の本を読めば理解できるそうなのですが,私の理解力をはるかに超えています).

 

例2) Pearson型分布のモーメント推定:初期のKarl Pearsonが行っていたような,Pearson型分布の母数をモーメント推定する分析も,①母集団分布は少数の母数で表される確率分布であると仮定し,かつ,②それらの少数の母数を推定する,という分析ですので,パラメトリックな方法です.

また,Pearson型分布全般においてはモーメント推定による点推定量の良さはもっぱら一致性でしか正当化できないので,この状況でのモーメント推定は大標本理論に基づいています.

大標本理論に基づくベイズ推定の例

例)Laplace近似:Karl Pearsonの時代には,(中心となる考え方はpopulation v.s. sampleの枠組でありながら数式の流れはベイズ統計に沿って,)尤度関数のLaplace近似によって,母数の区間推定や統計的検定を行っていました.Laplace近似は大標本理論に基づいています.

なお,事前分布として一様分布を指定したときのLaplace近似によるベイズ推定の結果(MAP推定値や信用区間)は,最尤推定の結果(最尤推定値や信頼区間)と同じになります.

小標本理論に基づくノンパラメトリックな方法

例1)ノンパラメトリックな推定量としての標本平均:母平均の点推定量としてみたとき,標本平均は,確率分布に何も仮定しないときのUMVU推定量です.つまり,母集団分布に何も仮定しない状況では,(たとえ小標本であっても)標本平均は,ある観点において点推定量として良い性質があります.

 

例2)正確な並び替え検定:後述する橘(1997)などが推奨した,正確な並び替え検定は,ノンパラメトリックな検定ですが,小標本理論に基づいています.

 

大標本理論かどうかは相対的なもの

大標本理論かどうかは,近似の良さという観点から見た場合,相対的なものです.

たとえば,Karl Pearsonの時代には,母集団分布として2変量正規分布を仮定した最尤推定の枠組み*2において,変換なしの相関係数に対して,ヘッセ行列から漸近分散を求め,それから区間推定や統計的検定を行っていました.R.A.Fisherは,(2変量正規分布に従っているときの)相関係数の正確な標本分布を求めましたが(←こちらは小標本理論),z変換という方法での近似も提案しました.z変換は大標本理論ですが,Karl Pearsonの方法よりはだいぶ近似が良いです.

 

パラメトリックセミパラメトリック・ノンパラメトリック

世の中全般において「パラメトリック」・「セミパラメトリック」・「ノンパラメトリック」という用語がどう使い分けられているのか私はよく分かりません.しかし,数理的には,以下のような区分を設けると分かりやすいのではないかと私は(私も)思っています.

  • パラメトリックな方法」は,母集団の確率分布が(nに比べて)少数の母数によって表されると仮定する方法だと思います.たとえば正規分布であれば,たった2個の母数で確率分布が表されるので「パラメトリックな方法」と言えます.
  • 母集団の確率分布は多数の母数でしか表現できないけれど,推定・検定するのが少数の母数である場合を,「セミパラメトリックな方法」と言うのが誤解が少ないのではないかと思います.これは,母集団分布に特定の確率分布(少数のパラメータで表現される確率分布)を仮定しないという意味では「ノンパラメトリック」ですが,少数のいくつかの母数を推定するという意味では「パラメトリック」です.
  • 確率分布が多数の母数でしか表すことができず,かつ,推定や検定の対象も多数の母数でしか表現できない場合を,「ノンパラメトリックな方法」と呼ぶのがスッキリすると思います.

たとえば,母集団分布として特定の確率分布を仮定しないで(=母集団分布として少数の母数で表現できる確率分布を仮定しないで)母平均という母数だけを推定・検定する場合は,上記の区分では「セミパラメトリックな方法」となります.

 ノンパラメトリックなモデルでは通常の最尤推定は破綻する

ここで注意しないといけない点があります.ノンパラメトリックなモデル,つまり,母数の個数が非常に多いモデルでは,その母数の推定に関して,最尤推定における漸近的性質は悪くなります(nが増えても母数の個数が多いと,母数1つあたりのnが少なくなり,小標本のようになります).

これを避けるためには,いくつかの技法があります.

  1. 母数に対して罰則を課し,罰則付き最尤推定を行う.
  2. 母数に対して事前確率の制約を課し,ベイズ推定を行う.なお,対応させた事前分布を設定すれば,そのベイズ推定のMAP解は,1の罰則付き最尤推定と同じになる.詳しくは,ここでは省きます.データサイエンスの授業(たとえば統計数理研究所「リーディングDAT LB-1」など)を受講してください.
  3. 分析の目的が「予測」にあるならば,母数の解釈はあきらめ,予測性能だけを見てモデルの選択を行う.たとえば,学習データから推定されたノンパラメトリックなモデルを,検証データにて評価し,モデル選択を行う.なお,この作業は,上記の1や2でも行われる.罰則の大きさや事前分布がどのようにすればいいかが,データが得られる前には通常は分からないからである.詳細は省略いたします.
  4. セミパラメトリックな方法(すべての母数を推定するのではなく,一部の少数の母数だけを推定するという戦略)に切り替え,層別分析・条件付き推定・マッチングなどを行う(多数の母数を,層別化や条件付けで消し去ることを試みる).
  5. 推定はあきらめ,ノンパラメトリックな検定だけを行うことにする.

このうち,もし分析の目的が「予測」にあるならば,4や5の回避策は無意味です.予測が主眼であるなら,1.~3.の戦略をとることになるのでしょう.

 

 t検定に対する3つの解釈

パラメトリックな検定の代表格としてハウツー本では取り上げられるt検定も,見方によっては,パラメトリックセミパラメトリック・ノンパラメトリックのいずれの方法とも言えると私は思います.この点は,ごく初歩的なハウツー本には記載がないけれど,重要ではないかと個人的には思っています(以下の説明はt検定に対するメジャーな説明ではないのでご注意ください.).

  • パラメトリックな検定としてのt検定:母集団分布として正規分布を仮定するとt検定を導出できます.この場合のt検定は,小標本でも成立するパラメトリックな方法です.たとえば独立な2群の場合,このパラメトリックなt検定には,主に以下の3つの考え方があります(以下の3.は仮説が母数だけで表現されていないため,「パラメトリック」と呼んでいいかどうか微妙ですね...).
  1. 正規性と等分散性を仮定して,「 H_0: \mu_1 = \mu_2」を帰無仮説とする.
  2. 正規性だけを仮定して,「 H_0: \mu_1 = \mu_2 かつ \sigma_1 = \sigma_2」を帰無仮説とする.
  3. 上記のすべての仮定を帰無仮説に含めて,「 H_0: 2つの群は同じ正規分布に従う」を帰無仮説とする.

 

  • セミパラメトリックな検定としてのt検定:正規分布を仮定しないでも,分散が有限であれば(あと,独立な2標本の場合ならば,等分散であるか,もしくは,異分散であっても群の標本サイズがほぼ等しければ),t検定は母平均に対する妥当な検定に(漸近的には)なります.たとえば独立な2標本に対するt検定の場合,前述の仮定のもとで,「 H_0: \mu_1 = \mu_2」といった帰無仮説に対する妥当な検定に(漸近的には)なります.もしくは,分散に対する設定を前提ではなく帰無仮説に置いて,「 H_0: \mu_1 = \mu_2 かつ \sigma_1 = \sigma_2」とした帰無仮説に対する妥当な検定に(漸近的には)なります.これらのセミパラメトリックなt検定は,漸近的な検定であり,大標本理論に基づいています.
  • ノンパラメトリックな検定としてのt検定:正規分布を仮定せず,かつ,(少数の)母数に対するものではなく「 H_0: F_1(x) = F_2(x)」のような帰無仮説に対する検定としても,t検定は(漸近的には)妥当な検定です.特に,t検定は,無作為割り付けが行われている場合での並び替え検定の近似になっています.この無作為割り付け実験での帰無仮説は, i = 1,2,3,\dots,nの実験協力者に対して,「 H_0: y_{10} = y_{11} かつ y_{20} = y_{21} かつ  \dots y_{n0} = y_{n1}」と表現されます.ここで,y_{i0}は,対照群に割り付けられたときの実験協力者 iの応答,y_{i1}は,処置群に割り付けられたときの実験協力者 iの応答です.これらのノンパラメトリックなt検定も,漸近的な検定であり,大標本理論に基づいています.

t検定打破の試み

パラメトリックなt検定や,漸近近似によるノンパラメトリックなt検定ではなくて,正確な並び替え検定を心理学で広めようという試みが日本で(日本でも?)あったようです(私は以下の書籍によってのみ知っただけで,直接は知りません).橘敏明(1997)『確率化テストの方法―誤用しない統計的検定―』(日本文化科学社)という本が出版されています.並び替え検定は,心理学実験で行われている無作為割り付けと相性がよさそうなので,パラメトリックなt検定より,そのアイデアを理解・受容しやすいと私も想像するのですが,普及しなかったようです.

 

Fisherの正確検定に対する2つの解釈

Fisherの正確検定も,場合や解釈によって,パラメトリックな検定としても,ノンパラメトリックな検定としても,見ることもできます.

パラメトリックな検定としてのFisherの正確検定

Fisher正確検定は,以下のような4つの状況でのパラメトリックな検定となっています.

 

  1. 4つの独立なポアソン分布において,「 H_0: \lambda_{11}/\lambda_{12} = \lambda_{21}/\lambda_{22}」を検定する.
  2. 2つの独立な二項分布において,「 H_0: \pi_1/(1-\pi_1) = \pi_2/(1-\pi_2)」(つまり,「H_0:\pi_1 = \pi_2」)を検定する)
  3. 1つの多項分布において,「H_0: \pi_{11}/\pi_{12} = \pi_{21}/\pi_{22}」を検定する.
  4. 1つの超幾何分布において,「H0: オッズ比 = 1」を検定する.

 

 もし,有意と非有意の境界例においてサイコロを振って有意/非有意を決めれば(この処理を「確率化」と言います),Fisher正確検定は,文字通りに「正確」な検定となり,かつ,UMPU検定(一様最強力不偏検定)となります*3

②ノンパラメトリックな検定としてのFisher正確検定

Fisher(1935)『実験計画法』の第2章で述べられている紅茶の仮想実験のような状況では,Fisherの正確検定はノンパラメトリックな検定です.

 

t検定に対するR. A. Fisherの心変わり

R.A.Fisherは,n次元の幾何学に基づき,正規分布に従う母集団から抽出された標本平均がt分布に従うこと(=Studentの予想)を数理的に証明しました.1925年の『研究者のための統計的方法』では,序において「 Not only does it take a cannon to shoot a sparrow, but it misses the sparrow! 」(拙訳:「それ[従来の統計的手法]は,ツバメを大砲で撃ち落そうとしているだけでなく,ツバメを狙ってさえもいない!」と述べ,従来の統計的手法(おそらくはKarl Pearsonのような大標本理論に基づく方法)を批判しています*4.このFisher1925年本での売りのひとつは,正規分布を仮定したt検定,つまり,パラメトリックなt検定でしょう.

しかし,正規分布を仮定しないとt検定は妥当ではないだろうという批判が,Egon Pearsonなどから出されました.おそらく,その批判に対応してだと思いますが,1935年頃になると,t検定を並び替え検定の近似ととらえ,正規性の前提がなくてもt検定は使えるだろうとFisherは主張するようになります.たとえば,1935年の『実験計画法』第3章では対応のあるt検定が説明されていますが,そこでは並び替え検定のp値と,対応のあるt検定のp値が似た値になっていることが例示されています(この第3章も,いつものR.A.Fisherの説明と同様,非常に話がこんがらかっていて,後の版でノンパラメトリック検定に対する批判が追加されています).

Karl PearsonとR. A. Fisherの連続性

パラメトリック統計学としてみた場合,Karl Pearsonと前期R.A.Fisherのあいだの考え方には違いがほとんどないと私は考えます.Karl Pearsonは,population v.s. sampleの枠組を重視し,(R.A.Fisherから見れば数理的に曖昧と映ったのでしょうが)標本抽出理論に基づいて,計量生物学や優生学などのデータを分析していました."population"や"sample"という用語は,Karl Pearsonの時代にはすでに普及・確立していました.

Karl Pearsonのパラメトリックな方法はどこから来たのか?

また,"parameter"という用語は使わなかったものの,"statistical constant", "frequency constantなどの用語をKarl Pearsonは使っていました.Karl Pearsonがそのような統計的な常数(定数)に目を向けるようになったきっかけは,Galtonからの影響でしょう.GaltonやKarl Pearsonは,Darwinからの影響を受けつつ,集団を対象とした社会統計での思考形式 ― <個体でのばらつきは不規則で定式化できないが,集団レベルで観察すると安定した結果が得られる>という統計的思考― を,計量生物学や優生学に輸入しました.

社会統計における集団観察(=大量観察)で発見された集団での安定性・規則性の考えを,GaltonやKarl Pearsonは計量生物学や優生学に流用したと言えます.

しかし,Karl Pearsonの数理的な記法や導出は,ベイズ統計とは完全に分離されていませんでした.ベイズ統計における事前分布を仮定せずに,population v.s. sampleの枠組みを綺麗に説明しようとしたのが,R.A.Fisherだと私は考えます.ベイズの用語や概念を避けて推測を行う道具として,尤度・信頼区間(R.A.Fisherの用語ではfiducial limit)・p値という3点セットを綺麗に正当化したのは,R.A.Fisherの業績であると私は考えます.<ベイズ統計を使わずに,これまで使われている数理統計学の道具をどのように正当化できるか?>という問題をR.A.Fisherは綺麗に整理した,と言えるでしょう.尤度とp値に関しては,黒木玄先生がTwitterにて紹介した赤池(1980, p.8)*5に,すでに以下のように解説されています.

「最尤法ならびに有意性検定に関するフィッシャーの理論の展開は,ベイズの理論をいたずらに無視することなく,これを十分に理解しながら,その難点を回避するという形で具体化されている.」

なお,細かく述べると,前期Fisherと後期Fisherでは,いろいろと違いがあると私は考えています(LehmanもFisherのいくつかの心変わりについて指摘している).前期Fisherと後期Fisherの違いについての考察は別の機会に譲りたいと思います.

 

日本における「母集団は存在するか?」論争

母集団が存在するものかどうか,という議論が少なくとも日本ではありました.社会統計学派の蜷川虎三は,「存在たる集団」という用語を打ち出し,実際に世の中に存在している集団(mass, aggregate)を分析するのが統計学の主な任務であると規定いたしました(...こんな雑なまとめでは戦前・戦中・戦後の社会統計学の変遷は言い表せないのですが,調べていないので分かっていません.ごめんなさい!).

一方,戦中・戦後の推計学派(増山元三郎・北川敏男など)は,初期R.A.Fisherの「仮説的無限母集団」の考えに強く影響を受けたせいか,<母集団は技術的・便宜的に決められるものであり,たとえ全数調査であっても,得られたデータは標本とみなすことができる.そして,そのような見方をするのが科学的である>という立場でした(...と思います.ここも詳しく調べていないので,かなり粗雑な記述となっています).

計量的社会調査における「母集団」とは何か?

 (「存在たる集団」論ではなく)標本抽出論の技術的な立場で見た場合,計量的な社会調査における「母集団」が何であるかは自明ではないと思います.

社会調査においては「母集団」をいくつかに分けていることからも,<母集団の定義が社会調査の分野で自明でない>ことを類推できると思います.理想的な状態において研究者が調べたい母集団は「目標母集団」と言われています.抽出に用いる個体がリストアップされたもの(日本の学術系・政府系の調査であれば,住民基本台帳や選挙人名簿が使われることが多い)を「抽出枠」と言い,抽出枠に記載されている集団を「枠母集団」と言います.枠母集団のなかから抽出されたもののうち,回答拒否や無回答などがなく,調査に協力してくれた人々の回答が研究者が観察できるデータです.このような調査において,何が「母集団」となっているかは自明ではないと思います.たとえば,住民基本台帳や選挙人名簿を枠母集団とした場合,(たとえ「2019年1月1日0:00時点」と時点を区切ったとしても)「日本人」が母集団になっているとは言い切れないでしょう.

さらに細かいことを言うと,林知己夫らは,1950年頃から,universeとpopulationを別の概念として扱おうとしました.この区分は日本でさえも普及しなかったようです.林らによるuniverseとpopulationの区別についても別の機会に譲りたいと思います.

 

計量的社会調査において真値はあるのか?

 一方で,計量的な社会調査(特に質問紙調査)において真値が何であるかも自明ではありません.

もちろん,一方の極には,真値が存在し,それを測定するための調査誤差をなるべく減らそうという立場があります.たとえば,satisficingを調べる研究などは,前提として<真値がある>と考えているのでしょう(たぶん).

しかし,もう一方の極には,ブルデュー*6のように,<世論というものは,世論調査によって作られるものだ>という考えもあります.ブルデューの主張のひとつは,<世論調査で得られる世論は,実際の社会における意見とは異なり,「純然たる人工物」であり,世論調査によって「幻想」や「平均的意見」が作られている>ということです.このようなブルデューの考えは,<社会のなかに世論の真値というものが存在しており,それを世論調査が測定している>という見方とは異なっていると思われます.

 

以上のような議論を見ると(私自身は調査をしたことがなく,あくまで教科書で仕入れただけの知識なので的外れでしょうけれども),標本抽出にもとづく計量的社会調査では,「母集団」や「真値」が何であるかは明確な同意がされていないと私は(私も)考えます.

 

現在,<集団とは何か?>,<集団が存在するか否か?>,<真値とは何か?>という議論はなされなくなったと思います.想像の範囲を超えませんが,<常識的に考えて集団や真値らしきものは存在しているだろうけど,分析者が操作的に作り出している側面もあるよね>ぐらいの曖昧なかたちで同意がなされているのではないでしょうか?(よく分からない...)

 

 

 

第2章 統計モデリング時代の幕開け

私自身は統計モデリングが何なのかよく分かっていないのですが,伊庭幸人(2018)「平均値から個性へ;統計的モデリングのひらく世界像」(『ベイズモデリングの世界』岩波書店)や,伊庭幸人(2018)「全体説明」リーディングDAT LB-1.統計モデリング入門を読みますと,統計モデリングには3つの特徴があるのだろうな,と私は感じました.話を単純化していますし,私が誤解しているかもしれないので,正確な情報は,前述の書籍(『ベイズモデリングの世界』)を読んだり,リーディングDAT講座を受講したりしてください m(_ _)m.

  1.   モデル選択を行う.
  2. (集団だけではなく)個体の振る舞いもモデリングする.
  3. (既存の手法をマニュアルに沿って行うのではなく)状況に応じてモデルを分析者自身が立ててる.

これから3つは相互に関連しているのですが,以下では別々に考えていきます.

 

統計モデリング①:モデル選択

19世紀末でも,<統計モデルは単なる近似である>という考えの源泉はありました.統計学ではなくて科学全般に対するエッセイ(『科学の文法』)ですが,<科学というものは,自分たちの意識に上がったものを「思考の節約」によって描写*7する作業である>という旨を,Karl Pearsonは主張していました.

さらにKarl Pearsonは,ある種のモデル選択も行っていました.一変量の母集団分布に関して,Pearson型分布と呼ばれるものをあてはめ,その適合度をカイ2乗適合度検定にて確かめる,といった処理(特にデータが正規分布に従っているかどうか)もしていました.

また,工業統計学(実験計画・応答曲面法・ARIMAモデルなど)での著名な統計家であるG.E.P. Boxは,1976年論文*8においてR.A. Fisherはデータと仮説のあいだを往復していたと主張しています.

しかし,Karl Pearson, 前期R.A. Fisher, Neymanが提唱したパラメトリックな統計分析は,その手法だけを取り出して見たときには,①少数の母数からなる確率分布を仮定し,②その母数を推定・検定する,という枠組だったと言えます.

また,1950年頃までには,たとえば回帰分析などで偏回帰係数が有意かどうかを判断するといった,ある種の「モデル選択」が行われていましたが,その手順は,現在におけるモデル選択とは異なった考えに基づいたものでしょう.

 

1970年頃からのFPE,Cp,ジャックナイフ推定などの各種のモデル選択規準の提案,特にAICの提案に伴い,新しい時代が幕開けたと私は(私も)感じます.それ以前では(正確にはそれまでのパラメトリックセミパラメトリックなモデルに基づく分析では),研究者によって与えられた1つのモデルのなかで,そのモデルの母数を推定するものでした.ところが,AIC統計学においては,複数の候補となっているモデルから,予測性能がよいモデルを選択するということが行われます.

また,一方で,予測が問題となる状況においては,データ量の増加とモデルの複雑化に伴い,学習データ(訓練データ)でモデルを推定し,モデルの予測性能を検証データ(テストデータ,評価データ)で評価するといった処理を行うようになりました.

 

現在のデータサイエンスの授業では,「バイアス-バリアンス」ジレンマや,オーバーフィッティング(過学習,過剰適合)などが強調されます*9

AIC統計学は,1つ1つのモデルを推定する計算においては,確率分布の母数を推定しているという点は従来のパラメトリックな手法と同じです.しかし,以下の2点で大きく異なります.

  1. どのモデルが良いかを選択する.
  2. その際,母数に対する推定量の良さ(たとえば,母数の不偏性・一致性・効率性・UMPU性など)を問題とせず,将来のデータ(=検証データ)に対する予測性能の良さ*10を問題とする.ですので,たとえばリッジ回帰やLASSO回帰などを筆頭に,母数の推定量としてはUMPU推定量となっていないもの(つまり,推定量としてはあまり芳しくないかもしれないもの)でも,AICから見ると良い推定になっていることはいくらでも登場することになる.

 

要約すると,古典統計学が問題にしてきた<母数の推定>という立場から離れ,予測性能がよいモデルを選択する,という立場にあるのが,統計モデリングの特徴の1つなのでしょう.

ここで,パラメトリックなモデルでも正則モデルではない特異モデル(私が分からないので飛ばします)や,ベイズ統計モデルも予測には役立つだろうと考え,

に注目して,これらの予測分布/確率分布の予測性能を問題にするとすれば,ベイズ統計と最尤推定の違いはあまりなくなります*11.この立場が,清水裕士先生,および,清水裕士先生が引用されている黒木玄先生の主張だと思います(誤解していたらすみません).

...と偉そうに書きましたが,数学(特異点解消定理,ゼータ関数 ...等々の事柄)がまったく分からないので,WAICをまったく理解していません....

 

統計モデリング②:個性を考慮した統計学

Karl Pearsonが"population"という言葉を用いた当初,"population"は"individual"と対比された概念でした.GaltonやKarl Pearsonは,<個性豊かで不規則な個体を1つ1つ詳細に見ても規則性は分からない.そこで集団レベルで見て,集団レベルの規則性を捉えよう>という統計的思考(集団的思考)を,その当時の社会統計学から輸入しました.

GaltonやKarl Pearsonの枠組でも<個体は異質なものであり,個性がある>ことが大前提となっていました.Galtonの枠組は,心理学で「個人差心理学」と呼ばれている分野での方法論の1つとなっています.しかし,GaltonやKarl Pearsonがもっぱら問題とするのは,集団レベルでの統計的常数(=母数)です.

初期R.A.Fisherは,GaltonやKarl Pearsonの集団的思考を(特に,パラメトリック統計学優生学・集団遺伝学での分野では)引き継ぎました.しかし,遅くても1930年頃になると,農業試験での土壌の異質性を問題とするようになりました.そして,そのような異質性があったとしても,平均的な因果効果を検定できる枠組みとして,無作為割り付けを主張するようになりました.

以上のように,個性があることは当たり前のこととして古典統計学でも扱われてきました.そして,個性があるからこそ,集団的レベルに注目するようになりました.古典統計学のこの枠組みでは,前述したように,注目されるのはもっぱら集団レベルでの規則性です.そして,個性はもっぱら,平均からの偏差(deviation)としてのみ扱われます*12

一方,近年の統計モデリングにおいて個性を‌表現する場合には,「平均からの差」以上の形で表現するのだと思います.個性を積極的にモデリングするときには,古典統計学のモデルも使えますが,ベイズ統計学との相性がいいのでしょう(ベイズ統計モデルでは,1つ1つ個性を確率変数で表現することにより,モデルとして個性を定式化できるから).

 

統計モデリング時代③:分析者がカスタマイズする統計学

私が若い頃にも,統計モデリングを行うパッケージはありました.たとえば,王立統計学会のGLIM (Generalized Linear Interactive Modeling)では,一般化線形モデルをあてはめることができました(20年程前).また,私よりも前の時代では,1970年代頃にはdecomp関数などが含まれているTIMSACパッケージが統計数理研究所から配布されていました.

しかし,現在は,それよりも数多くの統計モデルが,RやPythonなどを用いて簡単にあてはめることができるようになりました.特に,ベイズ統計モデルに関しては,MCMCの普及以降,ユーザー自身が自分で任意の事前分布と尤度を指定できるようになったようです.

古典統計学にしろ,ベイズ統計学にしろ,実に多彩なモデルのラインアップが揃ってきました.わざわざ古典統計学ベイズ統計学の2分類でそれらの豊富なモデルを区別しなくてもよくなってきたのでしょう(←暴論?).

 

結論(再掲)

結論としては...

  1. もともとは,ベイズ統計の用語や概念を使わずに推測を行うために,古典統計学(Karl Pearson,R.A.Fisher,Neymanなどの統計学)の道具 ー尤度・信頼区間・p値ー が整備された.
  2. 最近の統計モデリングの枠組みでは,特に母数の推定ではなくて予測性能の良さに興味がある場合には,古典統計学でのパラメトリックなモデルでの分析と,ベイズ統計モデルでの分析に,大きな違いはない.

...と私は(私も)思いました.1.は黒木さんがTwitterで紹介された赤池(1980)*13のp.8で触れられている見解に近いと思います.2. は清水先生(および清水先生が引用されている黒木さん)とおそらく同じ主張だと思います.誤解していたらすみません.

 

 付録:悲しみ

きっとWAICが理解できないと,統計モデリングにおける古典的統計モデルとベイズ統計モデルの統一性を体感できないんじゃないかと思います.代数幾何を1つも知らない人間がどこから勉強すればいいのでしょうか....

 

 以上です.

 

 

 

*1:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12

*2:Karl Pearsonの導出はベイズ的であり,Karl Pearson自身は「最尤推定」と言っていませんでした.「最尤推定」という用語を産み出したのはR. A. Fisherですが,R. A. Fisher以前から最尤推定の計算は行われていました.R.A.Fisherの功績は,ベイズ統計学の用語や概念を使わずに「最尤推定」を正当化した点にあると私は思います.

*3:実際にはサイコロを降って検定結果を決めることは行われておらず,保守的なp値や,mid-P値が報告されることが多いです

*4:Lehmanが指摘していますが,R.A.Fisherの1925年本で紹介されているすべての分析が小標本理論に基づくものではありません.カイ2乗検定や,相関係数z変換なども紹介されているのですが,それらは大標本理論です.

*5:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12

*6:田原音和訳(1991)「世論なんてない」『社会学社会学藤原書店

*7:Karl Pearsonは「記述」という言葉を使いましたが,「記述」と言ってしまうと,「推測」に対立する「記述統計学」をイメージしてしまうので,ここでは「描写」と述べました.Karl Pearsohは,その当時の統計理論の中心的柱は標本抽出理論であると考えていました.Karl Pearsonが主に行っていた統計学は,今でいう「記述統計学」ではありません.

*8:Box, G.E.P. (1976), Science and Statistics, Journal of the American Statistical Association, 71(356), pp.791-799. "Since all models are wrong the scientist cannot obtain a "correct" one by excessive elaboration."という言葉で有名な論文です.

*9:昨年度(2018年)に統計数理研究所様の「リーディングDAT」のLA-1, LB-1, LB-2講義に参加したのですが,これらの考えがかなり強調されていました.より正確に言えば,「リーディングDAT」講義では,予測性能の良さだけを強調されていたわけではありません.たとえば,通常の重回帰分析においても,AICなどでのモデル選択が良い場面(予測性能を問題とした多項式などの次数選択)と,事前にモデルを設定すべき場面(因果推定において有力な交絡因子は含めておくべき)が解説されていました.講義内容は盛りだくさんで,適切に要約できないので詳しくは受講してください.

*10:もう少し正確に述べると,AICは,<学習データから推定されたモデルに基づいて検証データから計算された対数尤度>の期待値の近似不偏推定量です.

*11:<母数の推定>という立場に立っても,設定によって,たびたび,古典統計学ベイズ統計学の結果は同じになることがあります.

*12:それ以前での物理実験や天体観測などでは,平均からの差は「真値からの誤差」とみなされていました.一方,Galton以降では,平均からの差は誤差ではなくて,ある種の個性として扱われます.Galtonは,その当時にあった"probable error"という用語を"probable deviation"というべきと主張したこともあります.この用語は流行りませんでしたが,K. Pearsonの"standard deviation"や,R.A. Fisherの"variance"という用語は普及しました.

*13:赤池弘次(1980),統計的推論のパラダイムの変遷について,統計数理研究所彙報,27(1),pp.5-12

「リッジ回帰」という名前の由来について

David (2001, p.225)によると,"ridge regression"の初出であろう論文は Hoerl and Kennard (1970b)である.この論文はTechnometric,12巻1号のpp.69-82に掲載されている.しかし,同号のpp.55-67には,"Ridge Regression: Biased Estimation for Non orthogonal Problems"というタイトルの同じ著者による論文(Hoerl and Kennard 1970a)があるので,こちらのほうが先だろう.

Hoerl and Kennard (1970a,p.81)では,"ridge regression"の名前の由来を次のように述べている.

 

"A. E. Hoerl first suggeted in 1962 (Hoerl 1962; Hoerl and Kennard 1968) that to control the inflation and general instability associated with the least squares estimates, ...

 \widehat{{\bf \beta}}^{*} = \left[ {\bf X'X} + k{\bf I} \right] ^{-1} {\bf X'Y}; k \ge 0 \ \ \ \ (2.1)
\ \ \ \ \ ={\bf WX'Y} \ \ \ \ \ \ \ \ \ \ (2.2)

The family of estimates given by  k \ge 0 has many mathematical similarities with the portrayal of quadratic response functions (Hoerl 1964). For this reason, estimation and analysis build around (2.1) has been labeled "ridge regression"

 

つまり,2次式で表される応答曲面関数の特徴を捉える方法と数学的に似ているので,"ridge regression"と呼んだ,ということだ.この2次応答曲面モデルの特徴を捉える分析を,"ridge analysis"とHoerlは呼んでいた.

ちなみに,文献リストにはHoerlの1964年度の論文は記載されていないので,"(Hoerl 1964)"は"(Hoerl 1962)"の誤記ではないかと思う.このHoerl(1962)を私は入手しておらず,目を通していない.Hoerl and Kennard(1968)は,127回アメリカ統計協会の年会におけるSPESセッションでの論文発表要旨である.

 

では,"ridge analysis"とはどんな分析であろうか? "ridge analysis"は,2次応答曲面の実験で得られた結果を図示する分析である.中心点(原点)から半径 Rまでの距離という制約のもとでの応答変数(の予測値)の最大値をプロットすることにより,応答曲面の特徴を捉えようとする分析である.1985年にRoger.W. Hoerl(前述におけるArthur E. Hoerlと同姓であるが血縁関係にあるのかどうかは不明)によって書かれた論文(Hoerl 1985, p187)では次のように説明されている.

 

"Using the previus notation, consider fixing  x'x=R^2 and maximizing equation (2) [ この式(2)は,2次の応答曲面モデル Y=b_0 + b'x + (1/2)x'{\bf B}xである ] subject to this constraint. For any given  R, some maximum  Y(R) is defined ... ... Connecting the coodinates of the  Y(R) values for  0 \le R^2 \le C^2 [ここで C^2は,実験を行った因子 xの領域を示す半径] would display the coordinates of the maximum response attainable for any given distance from the origin. This is defined to be the maximum ridge, and traces the path of steepest ascent from the origin." 

 

同じような定義により,"minimum ridge"や"secondary ridge"を定義している.つまり,原点から半径 Rである座標(原点を中心とした半径Rの円周上)をテクテクと歩いたときに,局所的に最大値や最小値となっている地点をトレースしたものを"ridge"と呼んでいる.2次式であるので,このような地点は「山の棟」のようにはなっていないので,個人的にはいいネーミングとは思わないが,半径 Rの円周上では(局所的に)最大値(もしくは最小値)となっているので,"ridge"と呼んだのだろうと思う.

また,"steepest ascent"と述べているが,「偏微分が大きくなる」という意味ではなく,あくまで原点から半径 Rの距離において(局所的に)最大や最小となっている,という意味だろう.あまりいいネーミングじゃないと思う.


参考文献
David, H.A.(2001)
First (?) Occurrence of Common Terms in Probability and Statistics
David, H.A. and Edwards, A.W.F. (ed.), Annotated Readings in the History of Statistics, Springer, 208-246

Hoerl, A. E. (1962)
Application of Ridge Analysis to Regression Problems
Chemical Engineering Progress, 58, 54-59 ■未入手■

Hoerl, R. W.

Hoerl, A.E. and Kennard, R.W. (1968)
On Regression Analysis and Biaed Estimation
Technometrics, 10(2), 422-423

Hoerl, A. E. and Kennard, R. W. (1970a)
Ridge Regression: Biased Estimatin for Nonorthogonal Problems
Technometrics, 12(1), 55-67

Hoerl, A. E. and Kennard, R. W. (1970b)
Ridge Regression: Applications to Nonorthogonal Problems
Technometrics, 12(1), 69-82

 Hoerl, R. W. (1985)

Ridge Analysis 25 Years Later

The American Statistician, 39(3), 186-192

 

p値の説明

以下のp値に対する説明において,「」は米国統計学会のp値声明など(Goodman 2008, Greenland et al. 2016, Wasserstein and Lazar 2016)で間違いとされている説明です.「」は,その間違いを部分的に修正した説明になっています.徐々に,より穏当な説明となっています.

 

ケース1

☓「p値は,帰無仮説が正しい確率である」
☓「p値は,対立仮説が正しくない確率である」
「p値は,帰無仮説が正しいと仮定したもとで求めた確率である」

[解説]

帰無仮説が真であることを H_0,得られたデータを Dとすると,誤った説明ではp値を Pr(H_0 | D)と解釈している.頻度論でのp値は Pr(D | H_0)であり, Pr(D | H_0) \approx Pr(H_0 | D) は必ずしも成り立たない.「この袋のなかにある玉のうち5%は赤玉である」ことは,「世の中にある赤玉のうちの5%が,この袋のなかにある」ことを必ずしも意味しない.

 

ケース2

☓「p値が小さいほど,将来の実験において現在と同じ結果が再現される」
〇「p値は,現在のデータに対して計算される確率である」

[解説]

伝統的なp値の計算には,再現確率は考慮されていない.頻度論の枠組みでは,再現確率とp値とは関係が薄い.たとえば,帰無仮説(や他の前提)が真である場合,現在のデータから得られたp値がどんな値であっても,まったく同じ実験をしたときにp値が 0.05以下になる確率は, 5%もしくは5%以下である.
Fisher, R. A.(1935) "The Design of Experiments"(第8版ではpp.13-14)では,何度,実施してもp値が小さくなるような実験の手順を研究者が知っているときに,はじめて「実験的に例証できる」と言えるのであり,単独の実験でのp値で小さくなったことが重要なのではない,としている.

 

ケース3

☓「p値が小さいほど,現在の結果は外的妥当性がある」
☓「p値が小さいほど,現在の結果は内的妥当性がある」
〇「p値が小さいからといって,外的妥当性や内的妥当性があるわけではない」

[解説]

外的妥当性のための無作為抽出や,内的妥当性のためのランダム化は,p値を計算するモデルを設定するときの手助けになる.しかし,p値が小さいからといって,外的妥当性や内的妥当性が保証されるものではない.

 

ケース4

 ☓「p値は,データが帰無仮説を否定しているかどうかに関しての証拠の強さを示している」
〇「p値は,帰無仮説と現在のデータが食い違っている度合いを示す指標の1つである」

[解説]

「帰無仮説を否定しているかどうかに関しての証拠の強さ」という表現では, Pr(H_0 | D)を想起する人が多いだろう.実際には,p値は Pr(D | H_0)であるので,「帰無仮説を否定する証拠の強さ」という表現は誤解を生みやすい.
なお,ある特定の仮説とデータとの食い違いを見る指標には,いろいろある(例:尤度比,情報量規準,ベイズ因子,ベイズ事後確率など).p値は,いろいろある指標の1つに過ぎない.

 

ケース5

 ☓「p値は,偶然だけによって現在のデータが得られる確率である」
☓「p値は,帰無仮説のもとで,偶然だけによって現在のデータが得られる確率である」
〇「p値は,帰無仮説のもとで,現在のデータが得られる確率である」

[解説]

 p値は,帰無仮説が正しいという妄想のもとでのデータに対する確率である.「偶然だけによって得られる」/「偶然だけによって得られない」/「偶然以外によって得られる」...等々の説明に対する確率ではない.

 

ケース6

☓「p値は,帰無仮説のもとで,現在のデータが得られる確率である」
☓「p値は,帰無仮説のもとで,検定統計量が現在の値になる確率である」
〇「p値は,帰無仮説のもとで,検定統計量が現在の値以上の極端な値になる確率である」

[解説]

データと検定統計量を D T,その実現値をそれぞれ d tと表すと,間違った解釈は Pr(D = d | H_0) Pr(T = t | H_0)である.正しくは  Pr(T \ge t | H_0)である.p値の計算には,現在の状態だけではなく,それよりも極端な領域も含まれる.

 

ケース7

☓「p値は,帰無仮説のもとで, 検定統計量が現在の値以上の極端な値になる確率である」
〇「p値は,特定のモデルのもとで,検定統計量が現在の値以上の極端な値になる確率である」

[解説]

間違った説明では,p値を  p(T \ge t | H_0) としている.より穏当な解釈では,p値を  p(T \ge t | M_0) としている.ここで M_0は,特定のモデルを指す.p値の計算で「正しい」と仮定されるのは,帰無仮説だけではない.計算に用いる前提(これには帰無仮説も含まれる)のすべてが正しいものとされている.
たとえば,2標本t検定をセミパラメトリックな想定で行う場合,「2群における母平均が正しい」という帰無仮説のほかにも,「単純無作為抽出である(各観測値は,互いに独立である)」や「2群の母分散が等しい」などの前提も正しいものとしてp値は計算される.よって,小さなp値は,必ずしも「帰無仮説とデータが食い違っている」ことを示唆するのではない.「仮定したモデル(これには帰無仮説も含まれる)におけるどれかがデータと食い違っている」ことを示唆するのである.


補足1

上記の内容は,Goodman(2008), Greenland et al. (2016)および Wasserstein and Lazar(2016)で取り上げられているものを抜粋・省略したものです.

補足2

実際には,このような誤解をしている人は存在していないかもしれず,藁人形論法となっているかもしれません.

補足3

p値に対する解釈の正誤は,一律には決められません.議論を単純化して,独断と偏見でまとめています.

補足4

ここで述べたp値の説明は,現在,利用されているp値のすべてを網羅しているわけではありません.上記のp値の定義には,帰無仮説が点仮説ではない場合(たとえば,片側検定や同等性検定)は含まれていません.また,条件付き検定(たとえば,パラメトリックな前提に基づくFisher正確検定など)も含まれていません.

補足4

p値の計算式がまったく同じであっても,その導出方法はいくつもあることが多いです.たとえば,2標本t検定のp値は,

  1. 独立な同一の正規分布に従う確率変数(パラメトリックな検定)
  2. 平均および分散が同一であり,かつ,独立である確率分布に従う確率変数(セミパラメトリックな近似検定)
  3. 独立な同一の確率分布に従う確率変数(ノンパラメトリックな近似検定)
  4. 「現実世界と仮想世界で応答値が等しい」という仮定のもとで並び替えしたもの(ノンパラメトリックな近似並び替え検定)
  5.  Y_1 | (\mu, \sigma^2, \delta) \sim N(\mu, \sigma^2) Y_2 | (\mu, \sigma^2, \delta) \sim N(\mu+\delta, \sigma^2),かつ,事前分布が f(\mu, | \sigma^2) \propto const. f(\sigma^2) \propto \frac{1}{\sigma^2}であるときの, Pr(\delta \gt 0 | D) Pr(\delta \lt 0 | D)ベイズ流片側検定での事後確率)

...等々のいずれの前提でも導出できます.ここでは5.のようなベイズ流の解釈は採用しませんでした.

 

引用文献

Goodman, S. (2008), A Dirty Dozen: Twelve P-Value Misconceptions, Seminars in
Hematology, 45, 135–140.

Greenland, S., Senn, S.J., Rothman, K.J., Carlin, J.B., Poole, C., Goodman, S.N. and
Altman, D.G.(2016) Statistical Tests, P-values, Confidence Intervals, and Power: A
Guide to Misinterpretations, The American Statistician, 70, Online supplement to the ASA Statement on Statistical Significance and P Values 

Wasserstein, R.L. and Lazar, N.A.(2016)
The ASA's Statement on p-Values: Context, Process, and Purpose
The American Statistisian, 70(2), 129-133

寺沢拓敬先生が2018年1月にTwitterにて話題に挙げたSEM関係の問題について

以下のような問題をTwitterにて寺沢拓敬先生が話題にされていました.

 

これら2つについて私が頭に浮かんだ理由を以下に述べてみます.はじめに断っておきますがかなり強引です.また,自分にとって都合がいいように質問をかなり変えました.

なお,私自身は初等教科書やハウツー本で統計学を座学しているだけで,(統計学や調査などを含め)学術的な業績・経験は何もありません.

【その1】潜在変数F_X \rightarrow F_Yの影響を調べるときに,F_XF_Yに対する観測変数の個数は同じほうがいいのか?

潜在変数F_XF_Yがあり,F_X \rightarrow F_Yの係数\gammaを推定することが主関心だったとします.条件として,F_X \rightarrow X_iと,F_Y \rightarrow Y_jのすべての係数がすべて同じ値(\beta)だとします(かなり非現実的な想定).そして,観測変数全部の個数(X_iY_jを合わせた個数)はk個と固定されているとします(つまり,質問票でk個の質問しか聞けないものとします).簡単のために,すべての変数(F_X, F_Y, X_i, Y_j)の母分散は1とします.

\gamma=0.8, \beta=0.5, k=10, n=1000で乱数シミュレーションしたところ,\widehat{\gamma}(標準化係数を用いました)のばらつきは,観測変数を5個/5個と等分に分けたとき(X_iが5個,Y_jが5個としたとき)に最小になります.次に\widehat{\gamma}のばらつきが小さいのは,6個/4個(4個/6個)のときです.そして,7個/3個(3個/7個),8個/2個(2個/8個)の順番でばらつきが大きくなっていきます.

おそらく\gamma, \beta, k, nの値によらず,上記のような条件(測定部分の係数がすべて同じ&観測変数の全部の個数が固定されているという条件)のもとでは,このような関係が成立すると予想されます.よって,上記のような条件のもとでは,推定量のばらつきを小さくするという観点だけから考えると,同じ個数に分けたほうが「お得」だと言えます.

しかし,想定した条件は現実的ではありません.また,上記のようなことよりも,測定したいものをきちんと測定しているかどうかの議論(測定の妥当性についての議論)のほうが重要で,「測定したいものによってどのような観測変数を用いるかを決める」という方針が自然だと思います.たとえば,「美術館見学」のような具体的なものは少ない観測変数ですむ一方で,「文化資本」のような抽象的なものはより多くの観測変数が必要だと思われます.

なお,たとえば6個/5個,7個/5個,8個/5個... の観測変数があるのを,同じ個数にするために,5個/5個に減らすのは,上記の基準(\widehat{\gamma}のばらつき)から見ても本末転倒です.ここで私が述べたのは,あくまで,「全部で観測変数の個数が固定されているならば,そして,測定における観測変数への係数がすべて同じならば,X_iY_jを同じ個数にしたほうが,\widehat{\gamma}のばらつきが小さくなるよ」というだけです.

【その2】数値を丸めるとPearson積率相関係数がどういう影響を受けるか?

ここではSEMはとりあえず置いておいて,Pearson積率相関係数がどうなるかを考えます.

元の変数が完全な連続変数であり,これを等間隔に丸めるとします(かなり非現実的な想定).このような状況では,どの程度,丸めるかによって算出されるPearson積率相関係数が異なってきます.

以下のようなRプログラムで確かめたところ,大きく丸めるほど相関係数は小さくなるようです.

r = 0.8;
n = 10000;
x = rnorm(n);
y = r * x + sqrt(1 - r^2) * rnorm(n);
print(cor(x,y));
rx1 = round(x);
ry1 = round(y);
print(cor(rx1, ry1));
rx2 = round(x / 2) * 2;
ry2 = round(y / 2) * 2;
print(cor(rx2, ry2));

今回,初めて私は知ったのですが,どうやら,データを丸めたときには生態学的誤謬(元データをグループごとの平均値に置換したときに生じる現象)とは逆のことが起こるようです.なぜかは知りません.

上記の想定は現実的ではないかもしれません.実際には,選択肢の視覚的な配置やワーディングなどによっては,選択肢1, 2, 3, 4, 5のあいだは等間隔ではないかもしれませんし,真ん中の「3」がニュートラルな点でないかもしれません.また,「(4件法ではなくて)5件法にすると中間の回答が増える」(←出典不明)といった影響も考慮しないといけないかもしれません.

選択肢(および調査方式・質問方法・質問文)をどのように設定するかは,このような話ではなくて,まずは,1つ1つの変数における測定誤差が小さくなるかどうかという観点から,議論すべきだと思います.

なお,「4件法や5件法のときにどのようなモデルを使うべきか? 推定方法として,多変量正規分布を仮定した最尤法を用いてOKか否か?」といった議論は,狩野裕・三浦麻子(2002)『グラフィカル多変量解析 増補版』(現代数学社)のpp.150-154で紹介されています.

 

あのひと、私が「分母の数」のことを「母数」と言ったら、どんな顔するだろう?

★★ 2016/08/17 19時頃 追加: お詫び ★★
 taggaさんの日記(http://srad.jp/~tagga/journal/605281/ )に、本ブログ記事の事実誤認や不備が指摘されています。全体的に私の考え方や調べ方が幼稚なのですが、特に、事実誤認が酷いところに取り消し線を入れました。

 本記事において

「denominator"の訳語として英和辞書に「母数」が登場することはブログで書いていた人がいました」 

と述べていますが、これはtaggaさんのメモのことです(それらへのリンクは、先ほどのtaggaさんの日記(http://srad.jp/~tagga/journal/605281/ )に記載されています)。ただし、そこに書かれている内容を、私は、ほとんど忘れていて、かつ、歪めて記憶していました。引用しなかったことも含め、申し訳ございませんでした。

★★ 2016/08/17 19時頃 追加分おわり ★★

 

統計学における「母数」
 「母数」は、日本の統計学業界では、parameterの訳語として、「母集団の特性を表す定数」や「累積分布関数や密度関数の形状を決める定数」という意味で使われています(ただし、ベイズ統計学では parameterを定数ではなくて確率変数とみなします)。

 日本の統計学業界において parameterが「母数」と訳されるようになった時期は、Fisher-Neyman流の推測統計学が輸入されたときでしょう。1930年後半~1950年前半に、佐藤良一郎・増山元三郎・北川敏男などによって、推測統計学に関する多くの統計用語の訳語が決められていった、と私は予想しています。

 「母数」という訳語が定着する前の日本の統計学業界では、parameterは以下のように呼ばれていました。

  • 佐藤(1937, p.5):「Parameters(媒介變數)」
  • 北川(1941, p.78),古屋(1942):「パラメーター」
  • 北川(1942, pp.148-149):「parameters」

 このあたりでは、まだ「母数」という訳語が統計学業界で誕生・普及していなかったのでしょう。なお、佐藤(1937)では、「Population(母集團トデモ譯サウ)」と述べられていますが、これが「母集団」の初出だろうと私は思っています。

 増山(1948, p.13)で、「母集團の特性を表す常數 ― 母數(Parameter)」と書かれています。また、増山(1943, p.95)には「母集團常數」という言葉が登場します。

 1952年に出版された統計科學研究會編『新編 統計數値表 I』のp. 7では、以下のような記述があります

「分布函に含まれる媒介變又はその函を[原文ママ]母集團の特性を表す常數という意味で,母集團常數又は母數という.」(統計科學研究會編 1952, p.7) 

 統計科學研究會編(1952, 諸言)や北川ら(1982, pp.41-42)によると、この説明は増山元三郎と北川敏男によって書かれています。この説明を素直に読めば、「母数」という訳語には、「母集団の特性を表す定数」という意味と、「累積分布関数の形状を決める定数」という意味の、ふたつの意味が込められている、と考えてよいでしょう。ふたつ目の意味(「関数の形状を決める定数」)については、後述します。

 国立国会図書館デジタルコレクションで「母数」で検索すると、増山(1948)よりも古い文献として、近藤(1944)があります。この近藤(1944)が、現在、私が調べた限りでの、統計学での「母数」の初出です。近藤(1944)で「母数」が登場することは、Twitter上で2012年に指摘されています(tigayam2, 2012)。

 1954年『文部省 学術用語集 数学編』の統計学分野において、parameterの訳語は「母数」とされています。この時点(1954年)において、他の候補(「母集団常数」や「媒介変数」)を押しのけて、統計学業界で「母数」が parameterの正統な訳語になったと言えるでしょう。

 なお、学術用語集に載っていても定訳にならなかった統計用語もあります。たとえば「尤度」には、学術用語集では別の訳語(「もっともらしさ,公算,優度,確度」)が割り振られています。これは、「尤」という漢字が常用漢字ではなかったためでしょう。また、現在においても、parameterのことを「母数」ではなく「パラメーター」と呼んでいる人もいます。

 

■数学における「母数」①
 統計学以外の数学分野でも、parameterは登場します。

  \displaystyle x- \displaystyle y座標の軌跡を調べる時に、時間 \displaystyle tを導入して、 \displaystyle x(t), y(t)と表したときの  \displaystyle tは、parameterと呼ばれています。このparameterは「媒介変数」と呼ばれていました(現在においても、「媒介変数」と呼ばれることが多いと思います)。

 数学では、もうひとつの用法があります。 \displaystyle f(x,y,a)などの関数において、 \displaystyle aを補助的な定数、 \displaystyle x, yを主たる変数とみなしたときに、この \displaystyle aをparameterと呼ぶことがあります。このparameterも「母数」と訳されることがあったようです。

 竹内(1922, p.282)には、以下のような記述があります。

 「曲線ノ方程式中ニ文字ニテ表サレタル常數ヲ含ムトキハ一般ニ其常數ノ數値ニヨリテ其曲線ノ形,位置等ハ種種ニ變ルベシ,カクシテ生ズル一群ノ曲線ヲ總稱シテ曲線群トイヒ,其文字常數ヲ母數イフ.」(竹内 1922, p.282)

 山崎(1936, p.430)には、以下のような記述があります。

 \displaystyle \lambdaヲぱらめーたートスル曲線群
             \displaystyle f(x,y,\lambda) = 0
ガ與ヘラレタ時,限リナク相隣レル曲線の交點ノ軌跡ヲバ,此曲線群の包絡線トイヒ,λヲ母數又ハトイフ。」(山崎 1936, p.430) 

  統計学の「母数」が普及する前に、曲線群のparameterに相当するものが「母数」と訳されていたと考えていいと思います。

 統計学の「母数」は、「確率密度関数や累積分布関数の形状を決める定数」でもあります。よって、「母集団の特性を決める定数」という意味ではなく、こちらの意味で「母数」と呼んでも違和感は生じません。前述したように、(増山元三郎や北川敏男は)「母数」にふたつの意味を含ませていたのでしょう。

 

■数学における「母数」②
 さらに話はややこしいです。「母数」は、「分母の数」という意味で使われることもあります。この用法の歴史はさらに古いです。1885年の『大全英和辞書:訂訳』における"denominator"の欄に、「名ヲ付ル人。母數(數學)」と記載されています。denominatorの訳語としての「母数」のほうが、統計学や曲線群の「母数」よりも、歴史は古いようです。

★"denominator"の訳語として英和辞書に「母数」が登場することはブログで書いていた人がいました(つまり、既出の情報)。しかし、2016/8/15現在、「denominator 母数」で検索してもヒットしません。引用しないで申し訳ございません。[2016/8/17 19時頃 追加: 本記事の先頭に書いてある「お詫び」をご覧ください]

 現在では、"denominator"は「分母」と訳すのが多数派でしょうし、大辞林などの日本語辞書にも、「母数」の欄に「分母の数」という意味は記載されていません。[2016/8/17 19時頃 削除]


■数学における「母数」③
 さらに、さらに、話はややこしいです。modular function(モジュラー関数)を、「母数関数」もしくは「母数函数」と訳していたこともあるようなのです。どんなに遅くても、前述の1954年『文部省 学術用語集 数学編』の数学分野におけるmodular functionの欄には、「母数関数 [母数函数]」と書かれています。このmodular functionを私はまったく理解していないので、説明を省略します。すみません。

 

■結び
 「母数」という言葉は漢字2文字ですので、言葉が重複してしまうことはしょうがないでしょう。「母集団の特性を表す定数」、「関数の形状を決める定数」、「分母の数」、「modular」、「母集団に属するものの個数」、...などなど、どれも漢字2文字で表わしたら、「母数」になってしまうでしょう。

 現在の国語辞典には、「母数=分母の数」という意味は記載されていません。しかし、[2016/8/17 19時頃 削除]「母数=分母の数」という用法のほうが、どうやら歴史的に古いようです。当初から誤訳していたという可能性もあるかもしれませんが、どうしてdenominatorを「母数」と訳したか、その真相は私には分かりません。

 なお、Twitterで「母数」で検索してざっと目視で調べた限り、「分母の数」という意味での「母数」のほうが、統計学での「母数」よりも、使用頻度が多いです(2016年8月15日現在)。

 

■参考資料(年代順)

1885年 箱田保顕 纂訳『大全英和辞書:訂訳』誠之堂・日報社
1922年 竹内端三 『高等微分学』裳華房
1936年 山崎栄作 『微分学通論』 内田老鶴圃
1937年 佐藤良一郎「數理統計學ノ展望」大塚數學會誌, 6(2), pp.1-15
1941年 北川敏男「小標本の理論(Ⅰ) : 正規型分布に關する統計假説檢定法, I」統計數理研究, 1(1), pp.66-81
1942年 古屋茂「Estimationの問題について」統計數理研究, 1(2), pp.12-32
1942年 北川敏男「適合度檢査法(Test of Goodness of Fit)と \displaystyle \chi^2分布」統計數理研究, 1(2), pp.33-77

1943年 統計科學研究會編『統計數値表 I』河出書房
1943年 増山元三郎『少數例の纒め方と實驗計畫の立て方 : 特に臨床醫學に携はる人達の為に』河出書房
1944年 近藤忠雄『計数の統計学岩波書店
1948年 増山元三郎「有限母集團からの抽出法」統計數理研究, 2(1), pp.12-23,

1952年 統計科學研究會編『新編 統計數値表 I』河出書房

1954年 文部省学術奨励審議会学術用語分科審議会『文部省 学術用語集 数学編』大日本図書

 

■参考文献

tigayam2(2012)

2012年2月14日におけるTwitterの投稿

[最終アクセス日] 2016年8月15日

 

北川敏男,丘本正,西平重喜(1982)

日本における統計学の発展 第47巻 (話し手:北川敏男 聞き手:丘本正)
昭和55,56,57年度文部省科学研究費総合(A)研究代表者西平重喜による速記録
統計数理研究所学術研究リポジトリRISM

読書感想:西内啓(2013)『統計学が最強の学問である』ダイヤモンド社

同書には、些細な事実誤認と思われる個所がいくつかある。そのなかのいくつかを以下に記す。いずれも同書の主旨には関係なく、重箱の隅を突くような指摘である。

 

■p.002 ウェルズの予言

「「1903年、H.G.ウェルズは将来、統計学的思考が読み書きと同じようによき社会人として必須の能力になる日が来ると予言した」」(p.002)

H.G.ウェルズ本人は引用されているような文章を書き残していない。Tankard(1979)を参照のこと。ただし、Tankard(1979)の主張の一部を、Tee(1979)は否定している。

 

■p.045 1937年の失業センサスに関する記述

「わざわざカードを入手して…」(p.045)

このときの自己申告による全数調査では、「カード」は各世帯に配布されている。Hansen(1987, p.183)を参照のこと。

 

■p.045 1937年の失業センサスに関する記述

「…全人口の0.5%(すなわちおよそ60~70万人)…」(p.045) 

 このときのサンプルリングサンプリング調査の抽出単位は個人ではなく、郵便配達のルートである。200万人名以上の個人が抽出されている。Hansen(1989)を参照のこと。また、Dedrick and Hansen(1938, p.1)には、より具体的に、509,989世帯で2,011,412名が調査対象と述べられている。

2016年8月1日 追記: そもそも「0.5%」という数値が間違えている。Dedrick and Hansen(1938, p.1)によると、91,596本の郵便配達ルートから約2%を無作為抽出し、509,989世帯の2,011,412名(米国全人口の約1.5%)を調べている。

 

■p.101 ランダム化実験の起源

「フィッシャーがほとんど独力で作り上げたこのランダム化比較実験…」(p.101)

R.A.Fisherが提案する以前にも、何人かの研究者がランダム化比較実験を提案している。たとえば、McCall(1923, pp.41-42)でランダム化比較実験が述べられている。また、Stigler(1986, p.253)によると、Peirce and Jastrow(1885)でランダム化比較実験が行われている。

 

■p.102-106 Fisherの紅茶実験

R.A. Fisherの紅茶実験が「1920年代末のイギリス」で行われたときに「H・フェアフィールド・スミス」がその場に同席していた、と述べられている。しかし、この時間と登場人物だと辻褄が合わない。なぜなら、Fisher-Box(1978, p.276)によると、Fairfield SmithがR.A. Fisherに初めて出会ったのは1935年だからである。Fisher(1935a)以前にR.A. FisherとFairfield Smithが会っていたかどうかさえも微妙である。

 さらに、Fairfield SmithはFisher-Box(1978)でもインタビューを受けているのだが、Fisher-Box(1978)に「1920年代末のイギリス」での逸話は記載されていない。後述するように、Fisher-Box(1978)には別の語り部による別の逸話が記載されている。

 同書におけるこの記述は、Salsberg(2001)の翻訳本である竹内・熊谷訳(2006)に記載されている逸話の模写であろうが、竹内・熊谷訳(2006)の訳者あとがきでは、逸話は疑わしいと述べている論文が紹介されている。

 ちなみに、紅茶実験にはこれ以外にも以下の2つの説がある。

  • Muriel Bristol説: Fisher-Box(1978, p.134)では、土壌藻類の研究者であったMuriel Bristolが紅茶実験のモデルだったと述べられている。この逸話の語り部は、のちにMuriel Bristolと結婚するWilliam Roachという化学研究者である。
  • 単なる空想説: Kendall(1963, p.5)には、Fisher自身は紅茶実験を一度もやったことがないとFisher本人から聞いた、という逸話が書かれている。

 岩沢(2014, pp.214-129)には、これら3つの説が並記されている。

 

■pp.106-107 Fairfield Smithの所属

「… H・フェアフィールドスミス(彼もまたコネチカット大やペンジルベニア大で教鞭をとった統計学者である)」(pp.106-107)

Salsberg(2001, p.2)によると、「ペンジルベニア大学」で教鞭をとっていたのはDavid Salsburg本人である。Salsberg(2001, p.2)には、Fairfield Smithがペンシルベニア大で教鞭をとっていたとは書いていない。

 

■p.106 王立化学協会のプレスリリース

王立化学協会から出された紅茶のプレスリリースは、George Orwellの生誕100周年に合わせて出されたお遊びである。単なるジョークであり、化学的・科学的・統計学的なエビデンスはまったくないだろう。Ono(2016)を参照のこと。

 

■p.107 ペテンを見破ることができる?

「ミルクティに限らず、この考え方を応用すれば、[超能力者の] たいがいのペテンは見破ることが可能であるとわかってもらえるだろうか。」(p.107)

実際、R.A. Fisherは、Society for Psychic Research(超能力研究協会)の研究にアドバイスをしていた(Fisher-Box, 1978:p.237)。1935年11月8日における協会宛ての手紙(Fisher, 1935b)を読む限り、実験計画と数理統計の観点から超能力実験に対してアドバイスをするだけ、という立場だったようである。

また、少なくともFisher(1935a)では、ある単一のランダム化実験の結果をもとに真偽を決定するという考え方に反対している。「[ランダム化試験と統計的検定によって]たいがいのペテンは見破ることが可能である」というような発想は、R. A. Fisherの対極にあると私は考える。

 

■p.301 “To Err is Human”

「”To Err is Human”という言葉は聖書からの引用であり」(p.301)

インターネット上の辞書(dictonary.com, 2016)からの情報なので私も間違っている可能性は非常に高いが、”To Err is Human”という文章は Alexander Popeの“An Essay on Criticism”から広まったようである。Googleで少し検索した限りでは、聖書からの引用ではないようである。

 

■[参考文献]

Dedrick, C. L. and Hansen, M. H. (1938)

Final Report on Total and Partial Unemployment: Volume IV. The Enumerative Check Census

United States Government Printing Office

 

Dictionary.com “Err is human

http://www.dictionary.com/browse/to-err-is-human--to-forgive-divine

最終アクセス日: 2016年7月31日

 

Fisher, R. A.(1935a)

Design of Experiments

(再出版: "Statiscal Methods, Experimental Deign and Scientific Inference" Oxford Science Publications)

 

Fisher, R. A. (1935b)

Correspondence to Mr. Salter

https://digital.library.adelaide.edu.au/dspace/bitstream/2440/68023/1/1935-11-08.pdf

最終アクセス日: 2016年7月31日

 

Fisher-Box (1978)

R.A. Fisher: The Life of a Scientist

Wiley

 

Hansen, M. H. (1987)

Some History and Reminiscences of Survey Sampling

Statistical Science, 2(2), pp.180-190

 

Hansen, M. H. (1989)

Discussion

Proceedings of the Survey Research Methods Section, ASA, pp. 161-163

 

Peirce, C.S. and Jastrow, J. (1885)

On Small Difference of Sensation

Memoirs of the National Academy of Sciences for 1884 3, pp.75-83

 

Kendall, M. G. (1963)

Ronald Aylmer Fisher: 1890-1962

Biometrika, 50 (1-2), pp.1-15

 

McCall, W. A. (1926)

How to Experiment in Education

The Macmillan Company

 

Ono, Y. (2016)

Letters: Milking the Joke

Significance, 13(1), p.47

                                                              

Salsburg, D. S. (2001)

The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century

Holt (竹内惠行・熊谷悦生訳 (2006) 『統計学を拓いた異才たち』日本経済新聞出版社

 

Stigler, S. M. (1986)

The History of Statistics: The Measurement of Uncertainty before 1900

The Belknap Press of Harvard University Press

 

Tankard, J. W. (1979)

The H. G. Wells Quote on Statistics: A Question of Accuracy

Historia Mathematica, 6(1), pp.30-33

 

Tee, G. J. (1979)

  1. G. Wells and Statistics

Historia Mathematica, 6(4), pp.447-448

 

岩沢宏和(2014)

世界を変えた確率と統計のからくり134話

SBクリエイティブ

 

■[修正履歴]

2016年8月1日 抽出確率について追記
2016年8月2日 私がブログ記事タイトルにて書名を間違えていた
([誤] 『統計学は最強の学問である』 [正]『統計学が最強の学問である』)

2016年8月3日 [誤] ブログタイトル [正] 記事タイトル

2016年8月21日 [誤] サンプルリング [正] サンプリング