Akaike (1982) On the Fallacy of the Likelihood Principle を読んで

はじめに

このブログ記事では，以下の論文に対する個人的な感想を述べます．

Akaike, H. (1982). On the Fallacy of the Likelihood Principle, Statistics and Probability Letters, 1, 75-78

同論文は，以下の論文集（pp.357-360）にも掲載されています．

Parzen, E., Tanabe, K. and Kitagawa, G. eds. (1998). Selected Papers of Hirotugu Akaike. Springer-Verlag.

[電子版 ] Selected Papers of Hirotugu Akaike | Emanuel Parzen | Springer

このブログ記事は，Akaike（1982）の内容を正確に伝えるものではありません．正確な情報については原論文を読んでください．Akaike（1982）はわずか4ページです．

このブログ記事は，予告なく修正・変更されます．間違いや誤解などが数多くあると思いますので，ご指摘いただけるとありがたいです．

謝辞

同論文（Akaike 1982）は，黒木玄さん(@genkuroki）に教えていただきました．ありがとうございました．

背景

Lindley-Savage流ベイズ主義が重視する行動規範として，強い尤度原理という行動規範があります．

Birnbaum（1962）において，＜十分原理と弱い条件付け原理という２つの行動規範を常に順守するのであれば，強い尤度原理も順守することになる＞という定理が成立するという主張がなされました．

その後，Birnbaum（1972）において，十分原理の代わりに数理的等価性原理を条件として，＜数理的等価性原理と弱い条件付け原理を常に順守するのであれば，強い尤度原理も順守することになる＞という定理も成立するという主張がなされました．

強い尤度原理・十分原理・数理的等価性原理・弱い条件付け原理は，行動規範です．これらの「原理」は，「てこの原理」のような物理法則でもなければ，「中心極限定理」のような数学的な定理でもありません．

私が通っていた高校には，雨が降ろうが，灼熱の夏であろうが，＜通学途中は，学校指定の学生帽を被るべきである＞という行動規範がありました．強い尤度原理・十分原理・数理的等価性原理・弱い条件付け原理も，そのような行動規範です（...と私は思っています）．

強い尤度原理自体は，特に説得力がある行動規範ではありません．＜通学途中は，学校指定の学生帽を被るべきである＞と言われても，「それは，どうしてなの？」とずっと私は思っていました．一方，十分原理・数理的等価性原理・弱い条件付け原理は，これらも行動規範ではあるものの，強い尤度原理よりは，少しは穏当なものだと思われます．そのため，＜強い尤度原理を順守すべきだ．なぜなら，十分原理（もしくは数理的等価性原理）および弱い条件付け原理を常に順守するのであれば，強い尤度原理も順守することになるからだ＞と主張したい時に，Birnbaum定理がたびたび利用されてきました．

論文の要旨

Akaike（1982）では，Birnbaum定理は同語反復（トートロジー）であると批判されています．

Mayo（2014）論文との違い

先日，以下のブログ記事にて，Mayo（2014）を紹介しました．

「もしも『十分原理』および『弱い条件付け原理』に私が従うならば，『強い尤度原理』にも私は従うことになる」ってどういう意味なの？（暫定版） - Tarotanのブログ

Akaike（1982）も，Mayo（2014）も，Birnbaum定理とその証明を批判する点では同じです．しかし，Akaike（1982）とMayo（2014）では，主に次の2つの点で違います．

1つ目の違い：Birnbaum定理は成立しないとみなすか，同語反復とみなすか．

1つ目の違いは，その主張の相違です．Mayo（2014）は＜（十分原理および弱い条件付け原理のより穏当な定義に基づくのであれば）Birnbaum定理は成立しない＞と主張していると私は思います．一方，Akaike（1982）は，＜Birnbaum定理の証明は同語反復になっている＞と主張しています．

「もしも空が青いならば，空は青い」といった命題が，「同語反復である」と言われるでしょう．同語反復の命題自体は，あまり実用的な意味はないでしょうけれども，偽ではありません．よって，Akaike（1982）では，私が考えるに，Birnbaum定理が成立していることを暗には認めているのだと思います（←これは，あくまで私の解釈です）．一方，Mayo（2014）では，（穏当な条件のもとでは）Birnbaum定理が成立しないという主張だと思います．

この違いだけを見ると，Akaike（1982）とMayo（2014）の主張は真逆です．しかし，両者はほぼ同じ出発点に基づいています．それは，＜Birnbaum定理の証明で出てくる架空実験を，混合実験とみなさない＞という出発点です．この違いについては，後ほど説明します．

2つ目の違い：条件が異なる

２つ目の違いは，条件に関するものです．

Mayo（2014）では，＜十分原理と弱い条件付け原理という２つの行動規範を常に順守するのであれば，強い尤度原理も順守することになる＞という定理の証明を問題としています．

一方，Akaike（1982）では，十分原理の代わりに数理的等価原理を条件としています．（なお，Akaike（1982）では，弱い条件付け原理も，Mayo（2014）とは少し異なるものを採用していますが，こちらはマイナーな違いと思います）．

この２つ目の違いは，Mayo（2014）はBirnbaum（1962）を中心に論じているのに対して，Akaike（1982）はBirnbaum（1972）を主に参照しているためだと思われます．この２つ目の違いは，証明が少し違ってくるものの，議論の骨子には大きくは影響しないと私は思っています．

用語の定義

Akaike（1982）が批判している定理は，次のような定理です（以下は，引用ではなく，私なりのパラフレーズです）．

もしも，数理的等価性原理および弱い条件付け原理を，私がいつでもどこでも順守するのであれば，強い尤度原理も私は順守することになる．

このブログ記事では，この定理を「Birnbaum定理」と呼ぶことにします．Birnbaum（1962, 1972）で証明している定理はいくつかありますが，このブログ記事では主に上記の定理だけを「Birnbaum定理」と呼びます．

このブログ記事では，強い尤度原理を次のように定義します（以下も，引用ではなく，私なりのパラフレーズです）．

ある２つの実験 $E_1, E_2$ について，それぞれ，データ $x^*, y^*$ が得られたとする．また，２つの実験 $E_1, E_2$ について，共通のパラメータ $\theta$ があり，それぞれの確率密度関数（もしくは確率質量関数）が $f_1(x^*; \theta), \ f_2(y^*; \theta)$ であるとする．このような状況で，すべての $\theta$ に関して $f_1(x^*; \theta) =c f_2(y^*; \theta)$ となっている場合，つまり，すべての $\theta$ に関して2つの実験の尤度が比例関係になっている場合， $E_1$ で得られた $x^*$ に基づく推測と， $E_2$ で得られた $y^*$ に基づく推測は，同じにすべきである．

「尤度原理」には定義がいくつかあるようですが，このブログ記事では，上記の意味だけに限定します．

このブログ記事では，数理的等価原理を次のように定義します（以下も，引用ではなく，私なりのパラフレーズです）．

ある1つの実験 $E$ について， $x_1$ というデータと， $x_2$ というデータが得られたとする．また，この実験 $E$ の確率密度関数（もしくは確率質量関数）が， $f(x; \theta)$ であるとする．このような状況で，すべての $\theta$ に関して $f(x_1; \theta) =f(x_2; \theta)$ となっている場合， $E$ で得られた $x_1$ に基づく推測と， $E$ で得られた $x_2$ に基づく推測は，同じにすべきである．

このブログ記事では，弱い条件付け原理を次のように定義します（以下は，Akaike（1982）やBirnbaum（1972）が採用しているものよりも狭義なものです）．

ある２つの実験 $E_1, E_2$ のいずれかを実施するものとする．この2つの実験のいずれを実施するかを，ランダムに決める．定数の確率 $\pi$ で実験 $E_1$ を，確率 $1-\pi$ で実験 $E_2$ を行うものとする．このようにランダムにどちらの実験を行うかを決めて，さらに実験結果として，どちらの実験が行われたかまでも記録する実験を，「混合実験」と呼ぶことにする．混合実験の結果に基づく推測は，ランダムに選ばれたほうの実験（ $E_1$ もしくは $E_2$ ）だけを実施したとみなした時の推測と同じにすべきである．

Birnbaum定理の証明

Birnbaum（1972）では，Birnbaum定理が成立すると主張しています．その流れを追っていきましょう．

ある実験 $E_1$ を行って，観測値 $x^*$ が得られたとします．この実験 $E_1$ の確率密度関数（もしくは確率質量関数）は，ある未知のパラメータ $\theta$ によって， $f_1(x; \theta)$ と表されることは知っているものとします．

まず，この実験 $E_1$ に対応する実験 $E_2$ を妄想します．この実験 $E_2$ の確率密度関数（もしくは確率質量関数）も，ある未知のパラメータ $\theta$ によって， $f_2(y; \theta)$ と表されることは知っているものとします．

そして，あるデータ $y^*$ に関して，すべての $\theta$ に関して $f_1(x^*; \theta)=c f_2(y^*; \theta)$ と尤度が比例関係になっているとします．ここで $c$ は，正の定数です．

さらに妄想を広げます．確率 $1/(1+c)$ で実験 $E_1$ を，確率 $c/(1+c)$ で実験 $E_2$ をランダムに選ぶことにします．この実験を，「Birnbaum実験」と呼び，記号 $E_B$ と記すことにします．

そうすると，実験を示す番号を $i\ (=1, 2)$ ，いずれかの実験で得られたデータを $z\ (=x, y)$ とした場合，このBirnbaum実験 $E_B$ での確率密度関数 $f_B(\{i, z\}; \theta)$ は，

$\{i, z\} = \{1, x\}$ の場合に， $f_B(\{i, z\}; \theta)=\frac{1}{1+c} f_1(x; \theta)$
$\{i, z\} = \{2, y\}$ の場合に， $f_B(\{i, z\}; \theta)=\frac{c}{1+c} f_2(y; \theta)$

となります．

$f_1(x^*; \theta)=c f_2(y^*; \theta)$ と比例関係になっていることに注意しながら， $f_B(\{1, x^*\}; \theta)$ を展開すると，

$f_B(\{1, x^*\}; \theta) =\frac{1}{1+c} f_1(x^*; \theta) =\frac{c}{1+c} f_2(y^*; \theta) =f_B(\{2, y^*\}; \theta)$

となります．

$f_B(\{1, x^*\}; \theta) =f_B(\{2, y^*\}; \theta)$ ですので，数理的等価原理に従うとしたら， $E_B$ で得られた $\{1, x^*\}$ に基づく推測は， $E_B$ で得られた $\{2, y^*\}$ に基づく推測と同じにすることになります．つまり，前者の推測を ${\rm Infr}(E_B, \{1, x^*\})$ ，後者の推測を ${\rm Infr}(E_B, \{2, y^*\})$ と表した場合，数理的等価原理に従うとしたら，

${\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_B, \{2, y^*\})$

とすることになります．

さらに，このBirnbaum実験を混合実験だとみなし，弱い条件付け原理に従うとすると，

${\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_1, x^*)$
${\rm Infr}(E_B, \{2, y^*\})={\rm Infr}(E_2, y^*)$

とすることになります．ここで， ${\rm Infr}(E_1, x^*)$ は，実験 $E_1$ だけで $x^*$ が得られたときの推測です．また， ${\rm Infr}(E_2, y^*)$ は，実験 $E_2$ だけで $y^*$ が得られたときの推測です．

以上のことから，もしも，数理的等価原理および弱い条件付け原理に，どこでもいつでも私が従うのであれば，すべての $\theta$ に関して $f_1(x^*; \theta)=c f_2(y^*; \theta)$ と尤度が比例関係になっている場合には，

${\rm Infr}(E_1, x^*)={\rm Infr}(E_2, y^*)$

とすべきことになります．

以上で，Birnbaum定理の証明は終わりです．

Akaike（1982）の批判

Akaike（1982）では，前章で見たような証明で示されたようなBirnbaum定理は，同語反復（トートロジー）だと主張されています．その主張を見ていきましょう．

Birnbaum実験において，数理的等価原理に従うことは

${\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_B, \{2, y^*\})$

という推測を行うことを意味します．Akaike（1982）では，このように2つの推測結果を同じにするということは，たとえこのBirnbaum実験で $\{1, x^*\}$ という結果が得られても， $\{2, y^*\}$ と報告してもいいし，逆に， $\{2, y^*\}$ という結果が得られても， $\{1, x^*\}$ と報告してもいいと解釈しています．この嘘の報告をしてもいいBirnbaum実験を，このブログ記事では「虚偽報告実験」と呼びましょう．

一方，弱い条件付け原理は，この虚偽報告実験の結果を，１つ１つの実験とみなすことを許容してくれます．

そのように考えると，Birnbaum定理の証明は，＜ $\{1, x^*\}$ を $\{2, y^*\}$ と虚偽報告してもよく， $\{2, y^*\}$ を $\{1, x^*\}$ と虚偽報告してもいいのであれば， $E_1$ の $x^*$ に基づく推測と $E_2$ の $y^*$ に基づく推測は同じにしてもいい＞と言っているに過ぎません．より大雑把に言うと，＜２つの推測結果を自由に入れ替えて虚偽報告してもいい世界では，そりゃ，それら２つの推測結果は同じになるでしょ＞と言っているだけに過ぎないと考えられます．以上のような意味で，Akaike（1982）では，Birnbaum定理は同語反復になっていると主張されています．

Birnbaum（1962, 1972），Mayo（2014），Akaike（1982）の違い

Birnbaum（1962, 1972）, Mayo（2014）, Akaike（1982）では，主張が異なります．

Birnbaum（1962, 1972）では，Birnbaum定理は成立していると主張されています*1．
Mayo（2014）では，（条件の定義を穏当なものにすれば）Birnbaum定理は成立していないと主張されています*2．
Akaike（1982）では，Birnbaum定理は同語反復になっていると主張されています．

3者の主張の違いは，Birnbaum実験をどのような実験だとみなすかの違いから生じているのに過ぎないと私は考えます．

Birnbaum（1962，1972）では，Birnbaum実験を混合実験だとみなしています．つまり， $E_1, E_2$ のどちらの実験が選択されたまでが正確に報告されるとみなしています．
Mayo（2014）では，Birnbaum実験を「目隠し実験」だとみなしています．つまり， $\{1, x^*\}$ もしくは $\{2, y^*\}$ となった場合， $E_1, E_2$ のどちらの実験が選択されたかは隠されて報告されるとみなしています．
Akaike（1982）では，Birnbaum実験を虚偽報告実験だとみなしています．つまり， $\{1, x^*\}$ もしくは $\{2, y^*\}$ となった場合， $\{1, x^*\}$ なのに $\{2, y^*\}$ と報告しても， $\{2, y^*\}$ なのに $\{1, x^*\}$ と報告しても良いとみなしています．

とりあえず，表にもしてみました

	Birnbaum実験
Birnbaum(1962, 1972)	混合実験
Mayo(2014)	目隠し実験
Akaike(1982)	虚偽報告実験

このように3者においてBirnbaum実験の解釈が異なるため，3者の主張が異なっているのだと私は思います．

Akaike（1982）における他の主張

以上がAkaike（1982）の主な主張ですが，4章のDiscussionにて他の批判もなされています．それは，ベイズ主義に従っていても，必ずしも強い尤度原理に従うことにはならないという指摘です．例として２つ挙げていると思います（Akaike 1982, pp.77-78）．

１つ目として，ベイズ主義でも，予測分布に基づく推測は（標本分布が関わってくるので），強い尤度原理に従わないと指摘されています．具体例が，Akaike（1980, pp.147-148）で述べられています．
２つ目として，ベイズ主義でも，実験 $E_1$ と実験 $E_2$ でまったく同じ事前分布を持っていなければ，強い尤度原理には従わないと指摘されています．

強い尤度原理に対する他の批判

なお，他にも，「赤池統計学」から見た場合，強い尤度原理はいくつかの短所があると思われます．例えば，このブログ記事で述べた話は， $\theta$ は未知であるものの， $f(x; \theta)$ という確率密度関数（もしくは確率質量関数）は既知であるとして扱っています．この指摘は，Birnbaum（1962）に対するDiscussionにて，G.E.P. Boxがすでに指摘しています．

私自身の強い尤度原理に対する違和感

しかし，以上のことよりも，私個人が納得できていない部分があります．「いつでも，どこでもX原理に従うべきだ」という縛りを儲け，しかも，誰もしないであろう妄想の実験（Birnbaum実験）でもその縛りに縛られた状況を考えるというロジックで，Birnbaum定理は成立していると私は思います．このようなロジックに私は共感できません．

良い例ではないでしょうが，「人々を励ますために，シンディ・ローパーは人々の前で歌い続けるべきだ」という規範を私が持っていたとしましょう．この規範自体に（そもそもシンディ・ローパーさん本人も）反論があるでしょうが，私は絶対に守るべきだと考えていたとします．

ある時，ふと，私は，シンディ・ローパーと数名の人々が月に住むことになったと妄想します．月面では宇宙服を来ていないと歌は歌えないので，先ほどの「人々を励ますために，シンディ・ローパーは人々の前で歌い続けるべきだ」という規範を守るために，「シンディ・ローパーは宇宙服を着るべきだ」という新たな規範が導出できるでしょう．地球上でも宇宙服を着ても歌は歌えるでしょうけれども，常識的に考えて，まあ，地球上では宇宙服を着ないで歌った方がいいでしょう．

もちろん，通常の初歩的な標本理論でも，「妄想」は行われています．たとえば，コイン投げの場合で，コインを10回投げて3回表が出た場合でも，まずは表が出る回数は二項分布に従うだろうと妄想し（＝妄想１），表が出る確率を0.5とした時（＝妄想２）に，表が2回出た場合（＝妄想３）などを妄想します．しかし，「妄想１」と「妄想３」は，現在の実験や調査のデザインによって妄想できるものです．また，「妄想２」は，信頼区間や検定といった推測のための仮定です．誰も実施しない実験を妄想している訳ではないと私は思います．

参考文献

Akaike, H. (1980). Likelihood and the Bayes Procedure. Bernardo, J.M., De Groot, M.H., Lindley, D.V. and Smith, A.F.M. eds. Bayesian Statistics, University Press. 1-13

Akaike, H. (1982). On the Fallacy of the Likelihood Principle, Statistics and Probability Letters, 1, 75-78

（上記の2論文は，論文集 Parzen, E., Tanabe, K. and Kitagawa, G. eds. (1998). Selected Papers of Hirotugu Akaike. Springer-Verlag. [電子版 ] Selected Papers of Hirotugu Akaike | Emanuel Parzen | Springer にも掲載されています．）

Birnbaum, A. (1962). On the Foundations of Statistical Inference (with Discussion). Journal of the American Statistical Association, 57(298), 269-326.

Birnbaum, A. (1972). More on Concepts of Statistical Evidence. Journal of the American Statistical Association, 67(340), 858-861.

Mayo, D. G. (2014). On the Birnbaum Argument for the Strong Likelihood Principle (with Discussion). Statistical Science, 29(2), 227-266.

*1:ただし，正確には，Birnbaum（1962）では，数理的等価性原理の代わりに，十分原理を条件としています．

*2:ただし，正確には，Mayo（2014）では，数理的等価性原理の代わりに，十分原理を条件としています．