「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」ってどういう意味なの?(暫定版)

12/26(土):このブログ記事は,理解があやふやのまま書いています.大幅に変更する可能性が高いです.また,数学の訓練も正式に受けていないため,論理や表現がおかしい箇所が沢山あると思います.正確な議論を知りたい場合には,原論文をお読みください.

 

12/26(土)23:10 修正:Twitterにてuncorrelatedさん(@uncorrelated)が間違いを指摘してくださいました.<最尤推定の標準誤差は尤度原理を満たしていない>と記載していましたが,多くの場合,対数尤度のヘッセ行列から求めるので,<最尤推定の標準誤差は尤度原理を満たす>が正しいです.Mayo(2014, p.227)におけるBirnbaum(1968)での引用も,"standard error of an estimate"としか言っておらず,最尤推定量の標準誤差とは述べていません.私の誤読でした.

12/27(日)16:55 修正:尤度原理に従う例として,最尤推定をした時のWald検定・スコア検定・尤度比検定(および,それらに対応した信頼区間)を追加しました.また,尤度原理に従わない有名な例として,<ハウツー統計学でよく見られる統計的検定や信頼区間>を挙げていましたが,<標本空間をもとに求められる統計的検定や信頼区間>に修正しました.

12/27(日)19:15 修正の修正:「Wald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います」 に「パラメータに対する」を追加して,「パラメータに対するWald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います」に修正.

 

検討中 12/28(月)Twitterにて,Ken McAlinn先生(@kenmcalinn)に,Bayesian p-valueを使わなければBayes統計ではモデルチェックを行っても尤度原理は保てる(もしくは,保てるようにできる?)というコメントをいただきました.Gelman and Shalize2031)の哲学論文に対するKruschkeのコメント論文に言及があるそうです.論文未読のため保留としておきます(が,おそらく修正することになると思います).

1月8日(金):<尤度原理に従うべきとの考えを,尤度主義と言う>のように書いていましたが,これは間違えのようです.「尤度原理」ではなくて,「尤度法則」を重視する人を「尤度主義者」と呼んでいるようです.該当部分を削除しました.

 

要旨

このブログ記事では,Mayo(2014)をもとに,「(十分原理 & 弱い条件付け原理) → 強い尤度原理」という定理のBirnbaum(1962)による証明と,それに対するMayo先生の批判を私なりに理解しようとしています.

 

動機

恥ずかしながら,Twitterでの議論から,「(強い)尤度原理」という原理があるのを,私は最近になって初めて知りました.また,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」という定理も,私は最近になって初めて知りました.

...というのは記憶違いで,過去に受講したセミナー資料を見てみると,「尤度原理」および上記の定理について少し触れられていました.また,どうやら「尤度主義」は<尤度原理に従うという考え方>という意味のようで,「尤度原理」と「尤度主義」は,ほぼ同義のように思われます.「尤度主義」は,これまでちょくちょく目にしてきました.

 

「十分原理」かつ「弱い条件付け原理」が何か分からずに定理が言わんとすることを語感だけから妄想すると,「強い尤度原理」を積極的に利用したくなります(つまり,尤度主義者になりたくなります).初めて私が聞いた時の印象は,「十分統計量を用いて,かつ,局外パラメーターを条件付けで消し去る条件付き推測をしたならば,それは強い尤度原理に従っている推測となる」という定理なのだろうというものでした.このブログ記事を読めば分かるように,私のこの第一印象は「十分原理」および「弱い条件付け原理」を完全に間違えています.

 

TwitterでのKen McAlinn先生(@kenmcalinn)による呟きによると,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも従うことになる」という定理は,Birnbaum(1962)が原論文のようです.原論文では逆向きも成立することも触れていますが,このブログでは「(十分原理 & 弱い条件付け原理) → 強い尤度原理」の向きだけを扱います.

TwitterでKen McAlinn先生(@kenmcalinn)は次のようにも呟いています.以下の呟きは,一連のスレッドの一部だけを抜き出したものです.

 

また,Deborah Mayo先生がブログや論文などで「(十分原理 & 弱い条件付け原理) → 強い尤度原理」という定理の証明を批判していることは,Twitterにて黒木玄さん(@genkuroki)も取り上げています.

 

内容

以下では,まず,「強い尤度原理」の定義を紹介します.また,「十分原理」と「弱い条件付け」のBirnbaum定義を紹介します.その後,Birnbaumによる「(十分原理 & 弱い条件付け原理)→ 尤度原理」の証明を見ます.最後に,Mayo(2014)による批判を紹介します.

 

強い尤度原理・十分原理・弱い条件付け原理

私が証明したい定理は,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」という定理です.

 この定理に出てくる「十分原理」・「弱い条件付け原理」・「尤度原理」という用語のいずれも,伝統的な初等統計学で登場する用語ではありません.このブログ記事でのこれら3つの用語の定義を,まず述べます.これらの定義はMayo(2014)で紹介されているものとほぼ同じ定義だと思うのですが,私が何か勘違いしているかもしれません.

「十分原理」と「弱い条件付け原理」については,Mayoが主張する定義と,Birnbaumの元の定義が異なっていると私には思われるため,以下では,Birnbaumの元の定義を「Birnbaumの十分原理」と「Birnbaumの弱い条件付け原理」と呼ぶことにします.

強い尤度原理

強い尤度原理を次のように定義します.

 

強い尤度原理の定義(Mayo 2014, p.230):同じパラメータ  \theta を共有している確率密度関数(もしくは確率質量関数)  f_1(.;\theta), f_2(.; \theta) を持つ2つの実験を,それぞれ  E_1, E_2 とする.これら2つの実験から,それぞれ  {\bf x}^*, {\bf y}^* という結果が得られたとする.あらゆる\thetaに関して f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) である時に,{\bf x}^* から得られる推測と,{\bf y}^* から得られる推測が同じになっている場合,「尤度原理に従っている」と言うことにする.

 

かなり抽象的なので,馬鹿げた具体例を述べたいと思います.いま,表が出る確率が \theta である硬貨を3回投げて,k 回だけ表が出たとします. この二項実験での k=0,1,2,3の尤度は,次表のようになります.

 

k

二項実験の尤度

0

(1-\theta)^3

1

 3\theta(1-\theta)^2

2

3\theta^2(1-\theta)

3

\theta^3

 

このような二項実験に対して,尤度が定数倍となっている「負の二項実験」があることが知られています.例えば,二項実験で3回中1回だけ表が出たときの尤度は,あらゆる \theta に関して,次のような尤度の定数倍になります.

  • 表が1回出るまでコインを投げ続ける実験で,3回目に初めて表が出た
  • 裏が2回出るまでコインを投げ続ける実験で,3回目に2回目の裏が出た

尤度原理に従うために,このような対応がある時には同じ推測結果を戻すことにします.上記の数値例で言えば,

  • コインを3回投げる二項実験で,1回だけ表が出た時
  • 表が1回出るまでの負の二項実験で,3回目に初めての表が出た時
  • 裏が2回出るまでの負の二項実験で,3回目に2回目の裏が出た時

には,例えば,「今晩の晩御飯はカレーだ」と常に推測することにします.他の k に関しても,次のように,対応がある場合(尤度が定数倍になっている時)には同じ推測(下表の一番右の列)を行うようにします.

 

k

3回コインを投げる二項実験の尤度

表がk回出るまでの負の二項実験が,計3回で終わった場合の尤度

裏が(3-k)回出るまでの負の二項実験が,計3回で終わった場合の尤度

推測結果

0

 (1- \theta)^3

NaN

 (1- \theta)^3

私はかっこいい

1

 3\theta(1-\theta)^2

 \theta(1-\theta)^2

 2\theta(1-\theta)^2

今晩はカレー

2

 3\theta^2(1-\theta)

 2\theta^2(1-\theta)

 \theta^2(1-\theta)

 {\mathbf \theta} {\bf =} {\bf 0}

3

 \theta^3

 \theta^3

NaN

1 + 1 = 5

 

これは馬鹿げた例ですが,このブログ記事では,上記の例のような推測でも「強い尤度原理に従っている」と言うことにします.

なお,一番,お手軽に,強い尤度原理に従うのは,常に同じ推測結果を戻すことです.例えば,どんな実験をしようとも,そして,どんな結果になろうとも,「私はかっこいい」と推測するのであれば,その推測は(あくまで上記した定義の上では)強い尤度原理に従っています.

もっとも有名な尤度原理に従っている推測方法は,最尤推定におけるパラメータの点推定です.■追加■ パラメータに対するWald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います.また,ベイズ推測において,予め決めた事前分布と尤度をずっと変更せずにパラメータの事後分布を求めた場合も,尤度原理に従っています.

尤度原理に従っていない有名な推測方法は,■間違いのため修正→■ハウツー統計学でよくみられる標本区間をもとに求められる統計的検定や信頼区間です(Mayo 2014; p.227).他にも,尤度原理に従っていない例は山ほどあります.■間違いのため削除→■最尤推定でも,(尤度が異なれば,たとえ違いが定数倍だけであっても,ヘッセ行列が異なってくるので)標準誤差の推定は尤度原理に従っていません(Mayo 2014; p.227におけるBirnbaum 1968の引用).ベイズ推測でも,ベイズ流p値(Bayesian p-value)は尤度原理に従っていません.古典的推測であろうが,ベイズ推測であろうが,モデルチェックを伴う統計分析(例えば,残差分析でモデルを変更する場合や,ベイズ推測で事前分布をモデルチェックで変更する場合),探索的データ分析,ノンパラメトリックな分析などは,おそらく尤度原理に従っていないでしょう.

 

Birnbaumの十分原理

初等数理統計学で出てくる面白い概念に,「十分統計量」というものがあります.このブログ記事では,十分統計量を次のように定義します.

 

十分統計量の定義:確率ベクトル  {\bf X}確率密度関数(もしくは確率質量関数)が, f({\bf X}; \theta) だとする.ある統計量のベクトル  {\bf  T}({\bf X}) {\bf X} を条件付けた時の条件付き分布が, \thetaに依存しない場合,その統計量のベクトル {\bf T}({\bf X})を「十分統計量」と呼ぶことにする.

 

この十分統計量を使って,「Birnbaumの十分原理」を次のように定義します.

 

Birnbaumの十分原理の定義:ある1つの実験 E の結果から求められるある十分統計量 {\bf t}_E(.)において, {\bf t}_E({\bf x}^*) ={\bf t}_E({\bf y}^*) を満たしているならば,実験 E {\bf x}^* に基づく推測と,実験 E {\bf y}^* に基づく推測が同じになっている場合,「Birnbaumの十分原理に従っている」と言うことにする.

 

具体的な例を挙げます.同じ部品を5回だけ測定するという実験を考えます.測定値は正規分布に従っているとして,研究者はそのことを知っているとします.この実験で,標本平均100.0と標本標準偏差20.0が得られました.標本平均と標本標準偏差のペアは,母平均と母標準偏差の十分統計量となっています(証明は略します.数理統計学の教科書をご覧下さい).同じ実験で測定値を測ったところ,個々のデータは異なるものの,やはり,標本平均100.0と標本標準偏差20.0が得られました.この場合,1回目のデータから得られる推測と,2回目のデータから得られる推測とが同じである場合に,「Birnbaumの十分原理に従っている」と言います.

もちろん,Birnbaumの十分原理に従わないような推測方法はあります.古典的推測であれ,ベイズ推測であれ,モデルチェックを伴う推測はBirnbaumの十分原理に従っていないでしょう(Mayo 2014, p.230におけるCasella and Berger 2002の引用).モデルチェックは多くの場合,残差などの十分統計量ではない統計量に基づいて行われます.

検定統計量が離散分布である場合(例えば,二項検定やFisher「正確」検定など)のNeyman流検定で提案されている「確率化(randomization)」を行った時も,Birnbaumの十分原理に従いません.確率化を行った場合,有意/非有意の境界にある場合は,サイコロを降って結果が決められます.つまり,全く同じデータであっても,推測結果は異なってきます.

 

Birnbaumの弱い条件付け原理

Birnbaumの弱い条件付け原理は,「混合実験」と呼ばれている仮想実験に対して定義されます.

 

混合実験の定義E_1, E_2という2つの実験があるとする.サイコロを降って,どちらかの実験を行うのを決めるとする.この実験の結果としては, E_1, \ E_2のどちらの実験を行ったか,および,行った個別の実験( E_1 もしくは  E_2)の結果を記録する.このような実験 E_{mixed}を「混合実験」と呼ぶことにする.

 

「混合実験」の具体的な例を挙げます.サイコロを降って1の目が出たら,計3回,コインを投げることにします.サイコロの目が1以外の場合は,裏が2回出るまでコインを投げ続けることにします.この実験は,「混合実験」となっています.

 

Birnbaumの弱い条件付け原理の定義E_1, E_2という2つの実験があり,それら2つの実験の混合実験を  E_{mixed} とする.混合実験  E_{mixed} での実験結果 {\bf z}に基づく推測が,該当する実験だけ(E_1 もしくは E_2のいずれか1つだけ)での実験結果 {\bf z}に基づく推測と同じ場合,「Birnbaumの弱い条件付け原理に従っている」と言うことにする.

 

うまく説明できていませんが,より具体的には次のようなことです.いま,混合実験においてE_1の実験が選択されたとして,その結果が  {\bf x} だったとします.その場合,実験  E_1 だけを行って {\bf x}が得られた時を考えます.この時,Birnbaumの弱い条件付け原理に従っているならば,混合実験に基づく推測結果と,実験  E_1 だけに基づく推測結果が同じになっていなければいけません( E_2 に関しても同様です).

Birnbaumの弱い条件付け原理に従わない推測方法もあります.一番有名な例は,Coxが挙げた2つの測定装置の例でNeyman-Pearson流の推測方法に従った場合です(Mayo 2014, p.228).いま2つの測定装置A, Bがあったとします.初めにサイコロを降って,3以下の目が出れば測定装置Aを,4以上の目が出れば測定装置Bを用いることにします.どちらの測定装置が使われるかは,研究者は知っているものとします.5回,測定するとします.測定装置Aでの測定値は N(\mu, 100^2)に従っています.測定装置Bでの測定値は N(\mu, 0.1^2)に従っています.これらの分布の情報も研究者は知っているものとします.ただし, \muは未知です.いま,測定装置Aが選ばれて5つの測定値が得られました. H_0: \mu = 0, \ H_1: \mu \gt 0を検定する場合にどのような検定方式にしたらいいでしょうか? 直感的に考えると,測定装置Bは無視して,測定装置Aしかない世界で実験をしたと思って検定方式を導出すればいい(つまり,弱い条件付け原理に従えばいい)と思うでしょう.しかし,たとえ今回の1回では測定装置Aだけしか使われなかったとしても,測定装置Bも考慮して棄却域を設定した方が,混合実験全体(サイコロを降って行う混合実験を何回も繰り返した全体)での検出力は上がります(証明は省略します).

 

 Birnbaumによる「(十分原理 & 弱い条件付け原理)→ 強い尤度原理」の証明

この節の証明は,Robert(2007: 2nd ed., pp.18-19)を参考にしました.ほぼ同じだと思うのですが,私の理解が甘く,勘違いしているところもあるかもしれません.

前節までで用語の説明をしました.いよいよ証明に入ります.証明したいことは,以下の定理です.便宜的に「Birnbaumの定理」と呼ぶことにします.

 

Birnbaumの定理:もしも,Birnbaumの十分原理,および,Birnbaumの弱い条件付け原理に私が従うのであれば,強い尤度原理にも私は従うことになる.

 

証明:

実験  E_1 を行って  {\bf x}^* という結果が得られたとする.仮想的に,実験  E_2 も行って  {\bf y}^* という結果が得られたと妄想する. E_1, E_2確率密度関数(もしくは確率質量関数)が, f_1({\bf x}^*; \theta), \ f_2({\bf y}^*; \theta)だとする. 証明したいBirnbaumの定理は,「Birnbaumの十分原理およびBirnbaumの弱い条件付け原理に従い,かつ, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) ならば, E_1 での {\bf x}^*に基づく推測と E_2 での {\bf y}^*に基づく推測は同じになる」と,言い換えることができる.

さらに,仮想的に,50%/50%の確率で  E_1E_2 のいずれかを行う混合実験 E_{mixed} を妄想する.

Birnbaumの条件付け原理に私が従うならば,

  •  E_1 での  {\bf x}^* に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^* に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

になるような推測方式を私は用いることになる.

ここで, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) とする.そして, E_{mixed} での統計量  {\bf t} として,

  • (i, {\bf z}) = (1, {\bf x}^*) もしくは (2, {\bf y}^*) ならば,  {\bf t}= (1, {\bf x}^*)
  • それ以外ならば, {\bf t} = (i, {\bf z})

という統計量を考える.ここで, i =1, 2 はどちらの実験が行われたかを示す添え字であり, {\bf z} は個々の実験結果である( i=1 の場合は, {\bf z}={\bf x} i=2 の場合は, {\bf z}={\bf y}).

そうすると, {\bf t} で条件付けた時の条件付き確率は以下のようになる.

  • (i, {\bf z}) = (1, {\bf x}^*)の場合: f_{mixed}((i, {\bf z}) = (1, {\bf x}^*)|{\bf t}) = c/(1+c)
  • (i, {\bf z}) = (2, {\bf y}^*)の場合: f_{mixed}((i, {\bf z}) = (2, {\bf y}^*)|{\bf t}) = 1/(1+c)
  • それ以外の場合: {\bf u} = {\bf t}である場合は, f_{mixed}((i, {\bf z}) ={\bf u}|{\bf t}) = 1 {\bf u} \ne {\bf t}である場合は, f_{mixed}((i, {\bf z}) ={\bf u}|{\bf t}) = 0

これらの条件付き確率は \theta を含まないために, {\bf t}(.) は十分統計量である.また, {\bf t}({\bf x}^*)={\bf t}({\bf y}^*)であるので,もしも,Birnbaumの弱い条件付け原理に私が従うのであれば,

  •  E_{mixed} での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

になるような推測方式を私は用いることになる.

以上のことから,Birnbaumの十分原理およびBirnbaumの弱い条件付け原理に私が従い,かつ, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta)ならば,

  •  E_1 での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ
  •  E_{mixed} での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

 となるような推測方式を用いることになるので,

  •  E_1 での  {\bf x}^*に基づく推測と, E_2 での  {\bf y}^*に基づく推測は同じ

になる.

 

■証明終わり■

 

以下に,証明のイメージ図を描きました.下にある2つの円が等価であることを証明するために,弱い条件付け原理に従っているならば上下ペアの円が等価になること,かつ,十分原理に従っているならば上2つの円が等価になることを証明しています.

 

f:id:Tarotan:20201226182112p:plain

等価性のイメージ図


 

Mayo(2014)による批判

前節で述べた証明は,論理的には,たぶん正しいのでしょう.しかし,Mayo(2014)は,上記の証明を批判しています.私の理解している限りでは,Mayo(2014)は,「十分原理」および「弱い条件付け原理」の定義が,常識的に考るとおかしいと述べているのだと思います.

私が理解している限り,Mayo(2014)は,次のように「十分原理」と「弱い条件付け原理」を変更しています.これは私の勝手な解釈であり,Mayo(2014)で明示的に述べられていることではありません.このブログ記事では,Mayo(2014)は次のように定義しているとみなすことにします.

 

Mayoの十分原理の定義:Birnbaumの十分原理を満たしており,かつ,そのような十分統計量  {\bf T}_E だけを用いて推測を行う場合に,「Mayoの十分原理に従う」と言う.

Mayoの弱い条件付け原理の定義:Birnbaumの弱い条件付け原理を満たしており,かつ,

  • 目隠し混合実験  E_{masked} での  {\bf x}^* から得られる推測と, E_1 での {\bf x}^*から得られる推測が異なる
  • 目隠し混合実験  E_{masked} での  {\bf y}^* から得られる推測と, E_1 での  {\bf y}^* から得られる推測が異なる

ようになっている場合,「Mayoの弱い条件付け原理に従う」と言う.

上記の「目隠し混合実験」は私の造語です.前節で述べた「混合実験」は, E_1, \ E_2 のどちらの実験を行ったかの情報を,研究者は推測に組み込んでいます.一方,どちらの実験を行ったかを推測に組み込まない実験のことを,ここでは「目隠し混合実験」と呼ぶことにします.

 

以上のような定義に従うと,50%/50%の確率で  E_1E_2 のいずれかを行う実験で,前節のような十分統計量を用いた場合,データが  (1, {\bf x}^*) もしくは  (2, {\bf y}^*) となると,その十分統計量だけからは,行った実験が  E_1 なのか  E_2 なのかが分かりません.そのため,混合実験ではなくなり,目隠し混合実験となります.よって,Mayoの十分原理とMayoの弱い条件付け原理から導かれるのは,

  •  E_1 での  {\bf x}^* に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^* に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ
  •  E_{masked} での  {\bf x}^* に基づく推測と, E_{masked} での  {\bf y}^* に基づく推測は同じ

 となります.さらに,Mayoの弱い条件付け原理に従うのあれば,

  •  E_{masked} での  {\bf x}^* に基づく推測と, E_1 での  {\bf x}^* に基づく推測は異なる
  •  E_{masked} での  {\bf y}^* に基づく推測と, E_2 での  {\bf y}^* に基づく推測は異なる

 ようにしなければいけません.

以上のことから,Mayoの十分原理とMayoの弱い条件付け原理に私が従ったとしても,尤度原理に私が従うことにはなりません.

 

Mayoの主張のイメージを下図に描いてみました.

まず,上2つの円の十分原理での等価性は,混合実験  E_{mixed} ではなくて,目隠し混合実験  E_{masked} で成立しています.そして,Mayoの定義での弱い条件付け原理からは,上下の円のペアでは等価性が成立してはいけないことになります.

 

 

f:id:Tarotan:20201226194350p:plain

非等価性のイメージ


 

感想

まだMayo(2014)の読み込みが甘いですが,また,Birnbaum(1962)の原論文,Mayo(2014)に対するリプライ論文,Ken McAlinn先生がTwitterで紹介している論文を一切,目を通していませんが,私の解釈が正しいのであれば,Mayo(2014)の十分原理や弱い条件付けの定義は,元のBirbaumによる定義よりも,穏当なものだと私は感じました. 

 

参考文献 

Birnbaum, A. (1962). On the Foundations of Statistial  Inference. Journal of the American Statistical Association, 57(298). 269-306.

Mayo, D. G. (2014).  On the Birnbaum Argument for the Strong Likelihood Principle. Statistical Science, 29(2), 227-239.

Robert, C. P. (2007:2nd ed.). The Bayesian Choice: 2nd ed. Springer