検定や信頼区間の前提が満たされない状況に対して,テキストはどう助言してきたか?

このブログ記事は,他の記事と同様,筆者個人の意見であり,すべての責任は筆者個人だけにあります.所属組織は,一切の責任を負いません.

このブログ記事は,履歴を残さず変更するかもしれません.

  

検定や信頼区間を導出したときに仮定した前提は,実場面では成り立っていないことが多いでしょう.そのような前提の不成立に対する対処方法を私なりに要約すると,次の7つぐらいに分類できると思います.

  • (1)検定や信頼区間を使わない.
  • (2)特定の分布からのズレにロバストな方法を用いる.
  • (3)従来のモデルが,前提からのズレにロバストであることを強調する.
  • (4)従来のモデルを一般化したモデルを用いる.
  • (5)モデルチェックを重要視する.
  • (6)デザインによって仮定が満たされるように努力する.
  • (7)ノンパラメトリックなモデルを用いる.

いま私の手元にあるテキストで,これら7つの話題がどのように取り上げられているかを少しだけ調べてみました.

 

なお,1/3ぐらいこのブログ記事を書いた時点で,東京大学教養学部統計学教室編「基礎統計学」3部作の1つである『自然科学の統計学』(東京大学出版会)を開いてみたところ,竹内啓・藤野和建「第7章 分布の仮定」pp.221-229に,主に正規性からのズレについて解説がされていました.

上記の7つのうち,取り上げている手法に違いがあったり,同章では数理的な解説がされていたりする等の違いはあるものの,同章では(2),(3),(5)は触れられていました.

(3)については,有意水準にはロバストであるものの,検出力の点では劣る可能性が同章では指摘されていますが,このブログ記事では取り上げません.

(7)は,このブログでは「(標本サイズと比べて)パラメータが多いモデル」を指しますが,同章では順位変換検定を指します.

 

なお,以下で取り上げている文献は,私の手元にあるテキストだけから,現在,思い付いたものを恣意的に選んだもので,一般性がある訳ではまったくありません.

 

(1)検定や信頼区間を使わない

「現実では前提を満たしていないから」という理由では必ずしもありませんが,一部の統計家は検定(や信頼区間)を避けました.

かなり古くなってしまいますが,Tukey (1977), Exploratory Data Analysis, Addison-Wesley Publishing Companyでは,検定や信頼区間が登場しません.

これも古いテキストですが,フランスのテキストでも,Volle(1981: 2ème édition) Analyse des données, Economicaには,検定や信頼区間が登場しません(私はフランス語が読めないので,あくまで数式を見た感じです).

日本でも,例えば林知己夫はたびたび検定を批判していましたが,例えば,数量化理論のテキストである林知己夫(1993)『数量化−理論と方法−』朝倉書店では,最初に検定批判をしている以外は,検定や信頼区間が登場しません.

テキストではありませんが,さらに古いもので社会学では,Merton, Reader and Kendall (1957) The Student-Physician: Introductory Studies in the Sociology of Medical  Educationの付録p.301-305では,同書にて有意性検定を使わなかった理由が書かれています.以下,私なりにパラフレーズすると,第1に,有意性検定は1つ1つで有意・有意でないを判断するので,複数の関連し合っている仮説を調べるのには適していない,第2に,第1種の誤りの確率を恐れて,有意水準を低くすると,第2種の誤りが増大するので,探索型の調査には適さない,第3に,有意性検定は無作為抽出を前提としているが同書のデータは無作為に抽出されていない,第4に,統計的な有意性と,結果の重要性は異なる,といった理由が挙げられています.以上,私なりに同書p.301-305パラレーズしました.このうち,3番目の理由は,<現実の状況では検定の前提が満たされていない>ということに相当すると思われます.検定を使わないことにより,一応,<前提が満たされていない時にどうするのか?>という問題に対処しているともいえます.

このように検定や信頼区間を扱わず,記述的な統計手法だけを扱うテキストがいくつかあります.より極端になれば,統計分析そのものを一切,行わないことも,対処方法としてありえるかもしれません.

 

記述的な統計手法ではないですが,Hastie, Tibshirani and Friedman『統計的学習の基礎』(翻訳書:共立出版)でも,索引を見る限り,検定や信頼区間が登場しません.最初から,バイアス-バリアンスジレンマを全面に押し出しています.データサイエンスでも機械学習教師あり学習ならば,検定や信頼区間を最初から扱わなくても,特に支障はないかもしれません.検定や信頼区間ではなく,holdout validation, cross-validation, leave-one-out-valicationなどをまずは理解することに注力することも戦略としてありえると思います.

 他にも,AICなどでモデル選択していて検定や信頼区間を取り上げていないテキストもあるでしょうけれども,よく分からないので省略します.坂元 慶行(1985)『カテゴリカルデータのモデル分析』 共立出版のABICなどでのモデル選択は,後述する(7)に相当するかもしれません.

 

(2)特定の分布からのズレにロバストな方法を用いる

 従来の方法(例えばt検定)に置き換えて,特定の分布(例えば正規分布)からのズレに比較的ロバストである方法,例えば,ブートストラップやランダム化検定(並べ替え検定)を紹介するテキストもあります.

ただし,統計教育でブートストラップや並べ替え検定が注目されたのは違う理由があるかもしれません.よく使われている検定や信頼区間でも,

  • 標本分布を数理的に導出する
  • 求められた検定や信頼区間がなぜ良いのかを正当化する

といった数理を理解するのが(少なくとも私には)難しいです.例えば,t検定を例にすると,

  •  X_i \sim(\mu, \sigma^2), i.i.d.の元で,標本平均と標本分散が独立で,かつ,標本分散が自由度n-1の \chi^2乗分布に従うことを示す
  • t分布の定義からt分布の密度関数を導出する
  • t分布の累積分布関数や分位点関数を求める数値ルーチンを理解する
  •  X_i \sim(\mu, \sigma^2), i.i.d.の場合にもつ該当の信頼区間が良い性質をもつかどうかの判定する

という4点が(私には,少なくとも他人に教えるのは)難しいです.これらのややこしいことを説明するのを避けるためだと思われますが,t検定ではなく,最初から,ブートストラップ法やランダム化検定を教える試みも行われているようです.

スポーツデータを題材にしたテキストであるTabor and Franklin(2013) Statistical Reasoning in Sports, W.H. Freeman and Companyでは,ランダム化検定が使われています.

また,Wikipediaの情報で私は未確認ですみませんが,https://en.wikipedia.org/wiki/Statistics_educationでは,ニュージーランドにて,ブートストラップを利用する試みが紹介されています.

日本の心理学分野では,橘敏明(1997)『確率化テストの方法―誤用しない統計的検定』にて,ランダム化検定が推されています.ただ,ランダム化検定が同書で推奨されているのは,確率分布(特に正規分布)からのズレにランダム化検定がロバストだからという理由ではなく,x-xiページによると,1) 心理学実験は無作為抽出を行わずランダム割り付けしか行わない,2) 応用や変形が簡単にできる,4) ランダム化検定は難しい数式が必要なく理解が簡単などが直接的な理由とのことです.同箇所では4つ理由が書いているのですが,3)は私が理解できないために,ここでは省略しました.

 

他にもさまざまなロバストな方法が紹介されることがあります.例えば,テキストではなくて規格になりますが,Z 9041-5:2003 (ISO 16269-7:2001)では母メディアンの推定値として標本メディアン(中央値)および,その信頼区間として分布によらない方法を勧めたり,平均と標準偏差の点推定値を求めるだけですが,外れ値にロバストな方法としてHuberのProposal 2を紹介しています.

回帰モデルでのロバスト推定が,Ryan(1997), Modern Regression Methods, John Wiley & Sons,11章で紹介されています.

二項分布やPoisson分布から予想される理論分散よりも,大きな分散となっていること(過大分散)が確認された場合,擬似尤度に基づく推定を紹介しているテキストもあります(McCullagh and Nelder 1989:2nd ed., Generalized Linear Models, Chapman and Hall/CRC).

 

特定の分析を解説したテキストでは,たびたび,いくつかの仮定からの逸脱にロバストな方法が紹介されています.

もっともハウツー本にでも登場するのは,二標本t検定におけるWelch検定でしょう.通常のt検定は,少なくとも数式上は等分散を仮定して導出されています(他にも,独立性や正規性も仮定します).一方,Welch検定は,少なくとも数式上は異分散を仮定して導出されています(こちらも,独立性や正規性は仮定します).ただし,標本サイズが等しく,ある程度の標本サイズがあれば,通常のt検定とWelch検定はほぼ同じ結果となります.また,後述しますが,通常のt検定は,並び替え検定の近似とみなせます.

他にも,計量経済学のテキストでは,重回帰モデルの最小2乗のところで,誤差が異分散性にロバストなサンドイッチ分散(Whiteの標準誤差)が紹介されています(例えば,Wooldridge (2010:2nd ed., pp.124-126), Economtric Analysis of Cross Section and Panel Data, The MIT Press, p.61).

重回帰モデルの最小2乗におけるサンドウィッチ分散とほぼ同じアイデアのものとして,線形混合モデルのテキストでは,共分散構造からのズレにロバストなサンドウィッチ分散が紹介されています(例えば,Verbeke and Molenberghs『医学統計のための線型混合モデル-SASによるアプローチー』訳書 p.60).

構造方程式モデルのテキストでは,最尤推定以外に,正規分布からのズレにロバストな推定方法も紹介されています(例えば,狩野裕・三浦麻子(2020:新装版)『新装版 AMOS, EQS, CALISによるグラフィカル多変量解析:目で見る共分散構造分析』pp.130-138, pp.149-162.ただし,ロバスト推定だけならず,適合度や正規性のチェックなども述べられています).

おそらく,後半に述べたこれらのロバスト推定は,小標本や中規模な標本で必ずしも望ましい結果になるとは限らないでしょう.しかし,とりあえずは,いくつかのテキストで,これらのロバストな方法が仮定を満たしていない時の対処方法として読者に示されています.

(3)従来のモデルが前提からのズレにロバストであることを強調する

Fisherは,1925年にStatistical Methods for Research Workersというテキストを出版しました.同テキストに対してStudentが批判的なコメントを出し,Fisherがそれに答え,その返答に対してE.S. Pearsonが再批判しました(http://www.economics.soton.ac.uk/staff/aldrich/fisherguide/esp.htm).

まず,Studentが非正規分布に対する統計表も必要ではないかと批判しました.Fisherは.いくつかの理由を述べた後,正規分布からのズレは生物学的研究ではまず見られないと反論しました.E.S. Pearsonが,歪度と尖度の点で正規分布からズレているいくつかのデータ例を示し,再反論しました.

このような批判があったためだと思うのですが,1935年に出版されたThe Design of Experiments では,対応のあるt検定が,ランダム化検定(並べ替え検定)の近似になっていることを紹介しています.

また,テキストではなくて論文ですが,1936年の"The Coefficient of Racial Likeness" and the Future of Craniometry", The Journal of the Royal Anthropological Institute of Great Britain and Ireland , 66 では,2標本t検定をランダム化検定として説明しました.

現在でも,t検定が,ランダム化検定の近似になっていることはいくつかのテキストで紹介されています(例えば,一標本t検定については,竹内啓 1963『数理統計学:データ解析の方法』東洋経済 pp.223-224,二標本t検定については,竹村彰通 2020 『新装改定版 現代統計数理統計学』学術図書 pp.283-287)

また,上記のような論理ではなく,中心極限定理から,漸近的には標本平均にnの平方根をかけたものが正規分布に従うことを紹介することは,いくつかの数理統計学のテキストで紹介されています(例えば,竹村彰通 2020 『新装改定版 現代統計数理統計学』pp.80-81).コーシー分布のような平均が分散が存在しない分布など反例は出せますが,このように,t検定のロバスト性を紹介することで,とりあえずの対処方法(何もしないで良いという対処方法)がいくつかのテキストでは提示されています.

 

(4)従来のモデルを一般化したモデルを用いる

 古くはKarl Pearsonが,正規分布ではない分布族として,タイプⅠからタイプⅦまでの分布族を提案しました(https://en.wikipedia.org/wiki/Pearson_distribution).その分布族には,ガンマ分布やベータ分布も含まれます.現在のテキストにてPearson分布族が紹介されることはまずないですが,例えば佐藤良一郎(1943)『數理統計學』培風館で紹介されています.Karl Pearsonは,混合正規分布をあてはめることも提案しています.

 

正規分布の確率変数を変数変換して導出される分布族がいくつかあります.有名であろう変換には,Box-Cox変換,Johnson変換,SHASH変換があります.

一番,手軽で,特に回帰分析での目的変数の変換として使われている変数変換として,Box-Cox変換があります.Box-Cox変換は,例えば,回帰分析のテキストであるRyan (1997), Modern Regression Methods, John Wiley & Sons, pp.192-193に回帰分析で対数尤度に基づきでパラメータを選択する方法とともに紹介されています.

変数変換した時の尤度は,NISTのページ(https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm)でも紹介されています.NISTのページでは,二変量分析と一変量分析でのBox-Cox変換の利用について(https://www.itl.nist.gov/div898/handbook/eda/section3/eda335.htmおよびhttps://www.itl.nist.gov/div898/handbook/eda/section3/eda336.htm)も紹介されています.

 

一般のテキストではあまり見られないですが,製造業の品質管理での工程能力分析に関するテキストにおいて,Box-Cox変換と一緒に紹介される変換に,Johnson変換があります.Johnson変換は,例えば,Polhemus(2018) Process Capability Analysis: Estimating Quality, CRC Press, pp.124-125で紹介されています.工程能力分析では,平均ではなくて,分布の端のほうにおける分位点に興味があります.平均に対する推測とは異なり,仮定した母集団分布によって大きく結果が変わります.

 

入門者向けのテキストでは取り上げられていませんが,変数変換すると正規変量になる簡単な分布として,SHASH分布というものもあります.SHASH分布は,SignificanceというRSSが出している会員および一般向けの統計学雑誌で紹介されています(https://rss.onlinelibrary.wiley.com/doi/full/10.1111/j.1740-9713.2019.01245.x).

  

ベータ分布を事前分布として二項分布を混合した分布として,ベータ二項分布があります.また,ガンマ分布を事前分布としてポアソン分布を混合した分布として,ガンマポアソン分布があります.

ベータ二項分布やガンマポアソン分布は,例えば,カテゴリカルデータのテキストであるAgresti(2013)Categorical Data Analysis, John Wiley & Sons, 14.3と14.4で紹介されています.

([2021/7/25追記] BDA322章が混合分布についてです.)

ベータ二項分布やガンマポアソン分布は,二項分布やポアソン分布を一般化した分布とみなせます.ベータ二項分布やガンマポアソン分布は,上記(2)で述べた擬似尤度とは別の,過大分散に対処する選択肢とみなせます.

 

このようにいくつかのテキストでは,従来の古典的なモデルを少し一般化することで,従来のモデルよりも少し広めの分布を扱えるような手法が紹介されています.

少し話はズレます.<いちいちその場でゼロから確率分布やモデルを考えるのではなくて,ある程度は既存のブロックが用意されていて,そこから自由に組み立てられる枠組みの方がいいや!>という発想もあると思います.そのような発想かどうかは私は分からず誤解かもしれませんが,松浦健太郎(2016)『StanとRでベイズ統計モデリング共立出版や,浜田宏・石田淳・清水裕士(2019)『社会科学のためのベイズ統計モデリング』朝倉書店では,現実世界を描写する様々なモデルをベイズモデリングという統一された枠組みで組み立てていく方法が紹介されています.

 

(5)モデルチェックを重要視する

「モデルチェック」とは,例えば.一変量の分布を調べるのにまずはヒストグラムを描いたり,二変量の相関を見るのにまずは散布図を描いたりすることを指します.このようなチェックの重要性は,多くのデータ分析のテキストで強調されています.

これが極端になって機械的になったハウツーとして,適用する検定を決めるための決定樹があります.吉村功『毒性・薬効データの統計解析−事例研究によるアプローチ−』サイエンティスト社 pp.23-25などに決定樹の例が乗っています.必ずしも絶対的なものではないと断られていますし,ドメイン知識が必要ですが,矢印を辿っていけば,分析者は決定樹が推奨する検定に行き着きます.

決定樹はやりすぎで,また,特に統計的検定により等分散性や正規性をチェックするのは新たな問題を産むだけだと私は思いますが,外れ値や分布のチェックは重要な作業でしょう.

 

(6)デザインによって仮定を満たすように努力する

Lehmann(2006: Revised 1st ed.)Nonparametrics: Statistical Methods Based on Ranks, Springer ,p.5では,統計的推測(特に検定)のモデルを,母集団モデルとランダム化モデルに分類しました.

いくつかのテキストでは,研究者自身がランダム性を導入し,これらモデルの大元となっている仮定(例えば,単純無作為抽出した場合はi.i.d,単純無作為割付けした場合は単純な並べ替え分布)を満たすようにすることが強調されています.

母集団モデルの仮定を満たすためのデザインとしては,無作為抽出が王道であり,主に社会調査のテキストで紹介されています(例えば,轟亮・杉野勇編 『入門・社会調査法』法律文化社,7章.同書では後述の無作為割付けについても触れられています).

一方,ランダム化モデルの仮定を満たすためのデザインとしては,無作為割付けが王道であり,例えば,医学分野での非臨床試験臨床試験についての統計分析のテキストで紹介されています(例えば,丹後俊郎(2018:新版)『新版 統計学のセンス:デザインする視点・データを見る目』朝倉書店,第3章.同書では無作為抽出についても触れられています).

  

(7)ノンパラメトリックな方法を用いる

ここでは,「ノンパラメトリック」は,モデルのパラメータ数が多い状態を指すことにします.ノンパラメトリックなモデルでは,古典的なモデル(例えば線形回帰モデル)よりも柔軟にデータを表現できるようになります.

ノンパラメトリック回帰モデルとして,例えば,Ryan(1997), Modern Regression Methods, John Wiley & Sons,10章では,カーネル回帰,loess,スプライン回帰といった手法が紹介されています.

ノンパラメトリックな状況では,パラメータそのものへの推測には,あまり興味がなくなり,従来のような少数のパラメータ(例えば母平均)の検定や推定といった枠組みではなくなるでしょう.また,特にオーバーフィッティングを避けるなどの工夫が必要となってきます.そのため,古典的なテキストではあまり取り上げられないようです.

 

最後に

このブログ記事では,検定や信頼区間の前提が成立していない時の対処方法として,統計学に関するテキストがどのような対処方法を提案しているのかを見ていきました.

 

これまでも根拠の乏しい恣意的な話でしたが,以下,より根拠ない私の個人的な印象です.

 

Twitterにて黒木さんが以下の指摘しています.

中学・高校・大学および企業での統計教育については私は全く知りませんが,<検定や信頼区間には仮想的な前提があって,あくまでその前提の枠組みでの確率計算である>ことを,従来のハウツー本や私自身は軽視していたかもしれません.

検定のp値は,<仮想的な世界での確率>と理解・説明されることが多いでしょうけれども,それでも(私は)理解・説明が不十分だったように思います.p値は,実際の計算上では<帰無仮説および前提のもとで計算された確率>ですが,「前提」が無視され<帰無仮説のもとで計算された確率>と多くの従来のハウツー本(および私自身)によって説明されてきたかもしれません.

信頼区間(および信用区間)になると,もっと状況が悪くなり,信頼区間(および信用区間)が仮想的な世界での確率計算から導出されていることを(少なくとも私は)忘れてしまっているようです.

上記した7つの対処方法を取るにしても,まずは,信頼区間(および信用区間)が仮想的な世界で計算されている点に注意することがスタート地点だと思います.これまでの理解・説明を改めることが(私は)必要なのかな,と感じました.

 

一方で,あまりにも仮想性ばかりを気にしすぎると,「そんな妄想での話をして何がうれしいのですか?」という疑問が(私は)生じます.やはり,ある程度は現実世界(や反事実世界)とリンクしていないと話が面白くありません.

また,仮想的であることだけを強調しすぎると,観測された95%信頼区間からは,「観測された信頼区間に真のパラメータが含まれているか,もしくは,観測された信頼区間に真のパラメータが含まれていないが今回は珍しいことが起こったか,もしくは,前提としたモデルが間違えているか,のいずれかだ」ぐらいの結論しか言えなくなります.

 

現実世界(や反事実世界)に即した話にするためのフォローとして,

  • 前提が現実世界に即していないことを,どう感知するか?
  • 前提が現実世界とズレていても大丈夫なロバスト性がどれぐらいあるか?
  • オーバーフィットに気をつけながらより幅広いデータに当てはまるようなモデルを組み立てるにはどうしたらいいのか?

といった疑問に答えられる手法群を提案していくことも大切なのかな,と(私は)感じました.

 

Akaike (1982) On the Fallacy of the Likelihood Principle を読んで

はじめに

このブログ記事では,以下の論文に対する個人的な感想を述べます.

Akaike, H. (1982). On the Fallacy of the Likelihood Principle, Statistics and Probability Letters, 1, 75-78

同論文は,以下の論文集(pp.357-360)にも掲載されています.

Parzen, E., Tanabe, K. and Kitagawa, G. eds. (1998). Selected Papers of Hirotugu Akaike. Springer-Verlag.

[電子版 ] Selected Papers of Hirotugu Akaike | Emanuel Parzen | Springer 

 

このブログ記事は,Akaike(1982)の内容を正確に伝えるものではありません.正確な情報については原論文を読んでください.Akaike(1982)はわずか4ページです.

このブログ記事は,予告なく修正・変更されます.間違いや誤解などが数多くあると思いますので,ご指摘いただけるとありがたいです.

謝辞

同論文(Akaike 1982)は,黒木玄さん(@genkuroki)に教えていただきました.ありがとうございました.

 

背景

Lindley-Savage流ベイズ主義が重視する行動規範として,強い尤度原理という行動規範があります.

Birnbaum(1962)において,<十分原理弱い条件付け原理という2つの行動規範を常に順守するのであれば,強い尤度原理も順守することになる>という定理が成立するという主張がなされました.

その後,Birnbaum(1972)において,十分原理の代わりに数理的等価性原理を条件として,<数理的等価性原理弱い条件付け原理を常に順守するのであれば,強い尤度原理も順守することになる>という定理も成立するという主張がなされました.

 

強い尤度原理・十分原理・数理的等価性原理・弱い条件付け原理は,行動規範です.これらの「原理」は,「てこの原理」のような物理法則でもなければ,「中心極限定理」のような数学的な定理でもありません.

私が通っていた高校には,雨が降ろうが,灼熱の夏であろうが,<通学途中は,学校指定の学生帽を被るべきである>という行動規範がありました.強い尤度原理・十分原理・数理的等価性原理・弱い条件付け原理も,そのような行動規範です(...と私は思っています).

 強い尤度原理自体は,特に説得力がある行動規範ではありません.<通学途中は,学校指定の学生帽を被るべきである>と言われても,「それは,どうしてなの?」とずっと私は思っていました.一方,十分原理・数理的等価性原理・弱い条件付け原理は,これらも行動規範ではあるものの,強い尤度原理よりは,少しは穏当なものだと思われます.そのため,<強い尤度原理を順守すべきだ.なぜなら,十分原理(もしくは数理的等価性原理)および弱い条件付け原理を常に順守するのであれば,強い尤度原理も順守することになるからだ>と主張したい時に,Birnbaum定理がたびたび利用されてきました.

 

論文の要旨

Akaike(1982)では,Birnbaum定理は同語反復(トートロジー)であると批判されています.

 

Mayo(2014)論文との違い

先日,以下のブログ記事にて,Mayo(2014)を紹介しました.

「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」ってどういう意味なの?(暫定版) - Tarotanのブログ

 

Akaike(1982)も,Mayo(2014)も,Birnbaum定理とその証明を批判する点では同じです.しかし,Akaike(1982)とMayo(2014)では,主に次の2つの点で違います.

1つ目の違い:Birnbaum定理は成立しないとみなすか,同語反復とみなすか.

1つ目の違いは,その主張の相違です.Mayo(2014)は<(十分原理および弱い条件付け原理のより穏当な定義に基づくのであれば)Birnbaum定理は成立しない>と主張していると私は思います.一方,Akaike(1982)は,<Birnbaum定理の証明は同語反復になっている>と主張しています.

「もしも空が青いならば,空は青い」といった命題が,「同語反復である」と言われるでしょう.同語反復の命題自体は,あまり実用的な意味はないでしょうけれども,偽ではありません.よって,Akaike(1982)では,私が考えるに,Birnbaum定理が成立していることを暗には認めているのだと思います(←これは,あくまで私の解釈です).一方,Mayo(2014)では,(穏当な条件のもとでは)Birnbaum定理が成立しないという主張だと思います.

この違いだけを見ると,Akaike(1982)とMayo(2014)の主張は真逆です.しかし,両者はほぼ同じ出発点に基づいています.それは,<Birnbaum定理の証明で出てくる架空実験を,混合実験とみなさない>という出発点です.この違いについては,後ほど説明します.

2つ目の違い:条件が異なる

2つ目の違いは,条件に関するものです.

Mayo(2014)では,<十分原理と弱い条件付け原理という2つの行動規範を常に順守するのであれば,強い尤度原理も順守することになる>という定理の証明を問題としています.

一方,Akaike(1982)では,十分原理の代わりに数理的等価原理を条件としています.(なお,Akaike(1982)では,弱い条件付け原理も,Mayo(2014)とは少し異なるものを採用していますが,こちらはマイナーな違いと思います).

この2つ目の違いは,Mayo(2014)はBirnbaum(1962)を中心に論じているのに対して,Akaike(1982)はBirnbaum(1972)を主に参照しているためだと思われます.この2つ目の違いは,証明が少し違ってくるものの,議論の骨子には大きくは影響しないと私は思っています.

 

用語の定義

Akaike(1982)が批判している定理は,次のような定理です(以下は,引用ではなく,私なりのパラフレーズです).

もしも,数理的等価性原理および弱い条件付け原理を,私がいつでもどこでも順守するのであれば,強い尤度原理も私は順守することになる .

 このブログ記事では,この定理を「Birnbaum定理」と呼ぶことにします.Birnbaum(1962, 1972)で証明している定理はいくつかありますが,このブログ記事では主に上記の定理だけを「Birnbaum定理」と呼びます.

 

このブログ記事では,強い尤度原理を次のように定義します(以下も,引用ではなく,私なりのパラフレーズです).

ある2つの実験  E_1, E_2 について,それぞれ,データ  x^*, y^* が得られたとする.また,2つの実験 E_1, E_2について,共通のパラメータ \theta があり,それぞれの確率密度関数(もしくは確率質量関数)が  f_1(x^*; \theta), \  f_2(y^*; \theta) であるとする.このような状況で,すべての \theta に関して  f_1(x^*; \theta) =c f_2(y^*; \theta) となっている場合,つまり,すべての \theta に関して2つの実験の尤度が比例関係になっている場合, E_1 で得られた x^* に基づく推測と, E_2 で得られた y^* に基づく推測は,同じにすべきである.

「尤度原理」には定義がいくつかあるようですが,このブログ記事では,上記の意味だけに限定します.

 

このブログ記事では,数理的等価原理を次のように定義します(以下も,引用ではなく,私なりのパラフレーズです).

ある1つの実験 Eについて, x_1 というデータと,x_2 というデータが得られたとする.また,この実験 E確率密度関数(もしくは確率質量関数)が, f(x; \theta) であるとする.このような状況で,すべての \theta に関して  f(x_1; \theta) =f(x_2; \theta) となっている場合, E で得られた x_1 に基づく推測と, E で得られた x_2 に基づく推測は,同じにすべきである.

 

このブログ記事では,弱い条件付け原理を次のように定義します(以下は,Akaike(1982)やBirnbaum(1972)が採用しているものよりも狭義なものです).

ある2つの実験  E_1, E_2 のいずれかを実施するものとする.この2つの実験のいずれを実施するかを,ランダムに決める.定数の確率  \pi で実験E_1 を,確率  1-\pi で実験  E_2 を行うものとする.このようにランダムにどちらの実験を行うかを決めて,さらに実験結果として,どちらの実験が行われたかまでも記録する実験を,「混合実験」と呼ぶことにする.混合実験の結果に基づく推測は,ランダムに選ばれたほうの実験(  E_1 もしくは  E_2 )だけを実施したとみなした時の推測と同じにすべきである.

 

Birnbaum定理の証明

Birnbaum(1972)では,Birnbaum定理が成立すると主張しています.その流れを追っていきましょう.

ある実験  E_1 を行って,観測値 x^* が得られたとします.この実験  E_1確率密度関数(もしくは確率質量関数)は,ある未知のパラメータ \theta によって,f_1(x; \theta) と表されることは知っているものとします.

まず,この実験  E_1 に対応する実験  E_2 を妄想します.この実験  E_2確率密度関数(もしくは確率質量関数)も,ある未知のパラメータ \theta によって,f_2(y; \theta) と表されることは知っているものとします.

そして,あるデータ  y^* に関して,すべての  \theta に関して f_1(x^*; \theta)=c f_2(y^*; \theta) と尤度が比例関係になっているとします.ここで  c は,正の定数です.

 

さらに妄想を広げます.確率 1/(1+c) で実験  E_1 を,確率 c/(1+c) で実験  E_2 をランダムに選ぶことにします.この実験を,「Birnbaum実験」と呼び,記号  E_B と記すことにします.

そうすると,実験を示す番号を  i\ (=1, 2),いずれかの実験で得られたデータを  z\ (=x, y) とした場合,このBirnbaum実験  E_B での確率密度関数 f_B(\{i, z\}; \theta) は,

  •  \{i, z\} = \{1, x\}の場合に,f_B(\{i, z\}; \theta)=\frac{1}{1+c} f_1(x; \theta)
  •  \{i, z\} = \{2, y\}の場合に,f_B(\{i, z\}; \theta)=\frac{c}{1+c} f_2(y; \theta)

となります.

f_1(x^*; \theta)=c f_2(y^*; \theta) と比例関係になっていることに注意しながら, f_B(\{1, x^*\}; \theta) を展開すると,

 f_B(\{1, x^*\}; \theta) =\frac{1}{1+c} f_1(x^*; \theta) =\frac{c}{1+c} f_2(y^*; \theta) =f_B(\{2, y^*\}; \theta)

となります.

 f_B(\{1, x^*\}; \theta) =f_B(\{2, y^*\}; \theta) ですので,数理的等価原理に従うとしたら,E_B で得られた  \{1, x^*\} に基づく推測は,E_B で得られた \{2, y^*\} に基づく推測と同じにすることになります.つまり,前者の推測を   {\rm Infr}(E_B, \{1, x^*\}),後者の推測を  {\rm Infr}(E_B, \{2, y^*\}) と表した場合,数理的等価原理に従うとしたら,

{\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_B, \{2, y^*\})

とすることになります.

さらに,このBirnbaum実験を混合実験だとみなし,弱い条件付け原理に従うとすると,

  • {\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_1, x^*)
  • {\rm Infr}(E_B, \{2, y^*\})={\rm Infr}(E_2, y^*)

とすることになります.ここで,{\rm Infr}(E_1, x^*) は,実験 E_1 だけでx^*が得られたときの推測です.また,{\rm Infr}(E_2, y^*) は,実験 E_2 だけで y^* が得られたときの推測です.

 

以上のことから,もしも,数理的等価原理および弱い条件付け原理に,どこでもいつでも私が従うのであれば,すべての  \theta に関して f_1(x^*; \theta)=c f_2(y^*; \theta) と尤度が比例関係になっている場合には,

{\rm Infr}(E_1, x^*)={\rm Infr}(E_2, y^*)

とすべきことになります.

以上で,Birnbaum定理の証明は終わりです.

Akaike(1982)の批判

Akaike(1982)では,前章で見たような証明で示されたようなBirnbaum定理は,同語反復(トートロジー)だと主張されています.その主張を見ていきましょう.

Birnbaum実験において,数理的等価原理に従うことは

{\rm Infr}(E_B, \{1, x^*\})={\rm Infr}(E_B, \{2, y^*\})

という推測を行うことを意味します.Akaike(1982)では,このように2つの推測結果を同じにするということは,たとえこのBirnbaum実験で \{1, x^*\} という結果が得られても,\{2, y^*\} と報告してもいいし,逆に,\{2, y^*\} という結果が得られても,\{1, x^*\} と報告してもいいと解釈しています.この嘘の報告をしてもいいBirnbaum実験を,このブログ記事では「虚偽報告実験」と呼びましょう.

一方,弱い条件付け原理は,この虚偽報告実験の結果を,1つ1つの実験とみなすことを許容してくれます.

そのように考えると,Birnbaum定理の証明は,<\{1, x^*\}\{2, y^*\} と虚偽報告してもよく,\{2, y^*\}\{1, x^*\} と虚偽報告してもいいのであれば, E_1 x^* に基づく推測と E_2 y^* に基づく推測は同じにしてもいい>と言っているに過ぎません.より大雑把に言うと,<2つの推測結果を自由に入れ替えて虚偽報告してもいい世界では,そりゃ,それら2つの推測結果は同じになるでしょ>と言っているだけに過ぎないと考えられます.以上のような意味で,Akaike(1982)では,Birnbaum定理は同語反復になっていると主張されています.

Birnbaum(1962, 1972),Mayo(2014),Akaike(1982)の違い

Birnbaum(1962, 1972), Mayo(2014), Akaike(1982)では,主張が異なります.

  • Birnbaum(1962, 1972)では,Birnbaum定理は成立していると主張されています*1
  • Mayo(2014)では,(条件の定義を穏当なものにすれば)Birnbaum定理は成立していないと主張されています*2
  • Akaike(1982)では,Birnbaum定理は同語反復になっていると主張されています.

3者の主張の違いは,Birnbaum実験をどのような実験だとみなすかの違いから生じているのに過ぎないと私は考えます.

  • Birnbaum(1962,1972)では,Birnbaum実験を混合実験だとみなしています.つまり, E_1, E_2のどちらの実験が選択されたまでが正確に報告されるとみなしています.
  • Mayo(2014)では,Birnbaum実験を「目隠し実験」だとみなしています.つまり,\{1, x^*\} もしくは \{2, y^*\} となった場合, E_1, E_2 のどちらの実験が選択されたかは隠されて報告されるとみなしています.
  • Akaike(1982)では,Birnbaum実験を虚偽報告実験だとみなしています.つまり,\{1, x^*\} もしくは \{2, y^*\} となった場合,\{1, x^*\} なのに \{2, y^*\} と報告しても, \{2, y^*\} なのに \{1, x^*\} と報告しても良いとみなしています.

とりあえず,表にもしてみました

 

Birnbaum実験

Birnbaum(1962, 1972)

混合実験

Mayo(2014)

目隠し実験

Akaike(1982)

虚偽報告実験

 

 このように3者においてBirnbaum実験の解釈が異なるため,3者の主張が異なっているのだと私は思います.

 

Akaike(1982)における他の主張

以上がAkaike(1982)の主な主張ですが,4章のDiscussionにて他の批判もなされています.それは,ベイズ主義に従っていても,必ずしも強い尤度原理に従うことにはならないという指摘です.例として2つ挙げていると思います(Akaike 1982, pp.77-78).

  • 1つ目として,ベイズ主義でも,予測分布に基づく推測は(標本分布が関わってくるので),強い尤度原理に従わないと指摘されています.具体例が,Akaike(1980, pp.147-148)で述べられています.
  • 2つ目として,ベイズ主義でも,実験 E_1と実験E_2でまったく同じ事前分布を持っていなければ,強い尤度原理には従わないと指摘されています.

 

強い尤度原理に対する他の批判

なお,他にも,「赤池統計学」から見た場合,強い尤度原理はいくつかの短所があると思われます.例えば,このブログ記事で述べた話は, \theta は未知であるものの, f(x; \theta) という確率密度関数(もしくは確率質量関数)は既知であるとして扱っています.この指摘は,Birnbaum(1962)に対するDiscussionにて,G.E.P. Boxがすでに指摘しています.

 

私自身の強い尤度原理に対する違和感

しかし,以上のことよりも,私個人が納得できていない部分があります.「いつでも,どこでもX原理に従うべきだ」という縛りを儲け,しかも,誰もしないであろう妄想の実験(Birnbaum実験)でもその縛りに縛られた状況を考えるというロジックで,Birnbaum定理は成立していると私は思います.このようなロジックに私は共感できません.

良い例ではないでしょうが,「人々を励ますために,シンディ・ローパーは人々の前で歌い続けるべきだ」という規範を私が持っていたとしましょう.この規範自体に(そもそもシンディ・ローパーさん本人も)反論があるでしょうが,私は絶対に守るべきだと考えていたとします.

ある時,ふと,私は,シンディ・ローパーと数名の人々が月に住むことになったと妄想します.月面では宇宙服を来ていないと歌は歌えないので,先ほどの「人々を励ますために,シンディ・ローパーは人々の前で歌い続けるべきだ」という規範を守るために,「シンディ・ローパーは宇宙服を着るべきだ」という新たな規範が導出できるでしょう.地球上でも宇宙服を着ても歌は歌えるでしょうけれども,常識的に考えて,まあ,地球上では宇宙服を着ないで歌った方がいいでしょう.

もちろん,通常の初歩的な標本理論でも,「妄想」は行われています.たとえば,コイン投げの場合で,コインを10回投げて3回表が出た場合でも,まずは表が出る回数は二項分布に従うだろうと妄想し(=妄想1),表が出る確率を0.5とした時(=妄想2)に,表が2回出た場合(=妄想3)などを妄想します.しかし,「妄想1」と「妄想3」は,現在の実験や調査のデザインによって妄想できるものです.また,「妄想2」は,信頼区間や検定といった推測のための仮定です.誰も実施しない実験を妄想している訳ではないと私は思います.

 

参考文献

Akaike, H. (1980). Likelihood and the Bayes Procedure. Bernardo, J.M., De Groot, M.H., Lindley, D.V. and Smith, A.F.M. eds. Bayesian Statistics, University Press. 1-13

Akaike, H. (1982). On the Fallacy of the Likelihood Principle, Statistics and Probability Letters, 1, 75-78

(上記の2論文は,論文集 Parzen, E., Tanabe, K. and Kitagawa, G. eds. (1998). Selected Papers of Hirotugu Akaike. Springer-Verlag. [電子版 ] Selected Papers of Hirotugu Akaike | Emanuel Parzen | Springer にも掲載されています.)

Birnbaum, A. (1962). On the Foundations of Statistical Inference (with Discussion). Journal of the American Statistical Association, 57(298), 269-326.

Birnbaum, A. (1972). More on Concepts of Statistical Evidence. Journal of the American Statistical Association, 67(340), 858-861.

Mayo, D. G. (2014). On the Birnbaum Argument for the Strong Likelihood Principle (with Discussion). Statistical Science, 29(2), 227-266.

*1:ただし,正確には,Birnbaum(1962)では,数理的等価性原理の代わりに,十分原理を条件としています.

*2:ただし,正確には,Mayo(2014)では,数理的等価性原理の代わりに,十分原理を条件としています.

「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」ってどういう意味なの?(暫定版)

12/26(土):このブログ記事は,理解があやふやのまま書いています.大幅に変更する可能性が高いです.また,数学の訓練も正式に受けていないため,論理や表現がおかしい箇所が沢山あると思います.正確な議論を知りたい場合には,原論文をお読みください.

 

12/26(土)23:10 修正:Twitterにてuncorrelatedさん(@uncorrelated)が間違いを指摘してくださいました.<最尤推定の標準誤差は尤度原理を満たしていない>と記載していましたが,多くの場合,対数尤度のヘッセ行列から求めるので,<最尤推定の標準誤差は尤度原理を満たす>が正しいです.Mayo(2014, p.227)におけるBirnbaum(1968)での引用も,"standard error of an estimate"としか言っておらず,最尤推定量の標準誤差とは述べていません.私の誤読でした.

12/27(日)16:55 修正:尤度原理に従う例として,最尤推定をした時のWald検定・スコア検定・尤度比検定(および,それらに対応した信頼区間)を追加しました.また,尤度原理に従わない有名な例として,<ハウツー統計学でよく見られる統計的検定や信頼区間>を挙げていましたが,<標本空間をもとに求められる統計的検定や信頼区間>に修正しました.

12/27(日)19:15 修正の修正:「Wald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います」 に「パラメータに対する」を追加して,「パラメータに対するWald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います」に修正.

 

検討中 12/28(月)Twitterにて,Ken McAlinn先生(@kenmcalinn)に,Bayesian p-valueを使わなければBayes統計ではモデルチェックを行っても尤度原理は保てる(もしくは,保てるようにできる?)というコメントをいただきました.Gelman and Shalize2031)の哲学論文に対するKruschkeのコメント論文に言及があるそうです.論文未読のため保留としておきます(が,おそらく修正することになると思います).

1月8日(金):<尤度原理に従うべきとの考えを,尤度主義と言う>のように書いていましたが,これは間違えのようです.「尤度原理」ではなくて,「尤度法則」を重視する人を「尤度主義者」と呼んでいるようです.該当部分を削除しました.

 

要旨

このブログ記事では,Mayo(2014)をもとに,「(十分原理 & 弱い条件付け原理) → 強い尤度原理」という定理のBirnbaum(1962)による証明と,それに対するMayo先生の批判を私なりに理解しようとしています.

 

動機

恥ずかしながら,Twitterでの議論から,「(強い)尤度原理」という原理があるのを,私は最近になって初めて知りました.また,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」という定理も,私は最近になって初めて知りました.

...というのは記憶違いで,過去に受講したセミナー資料を見てみると,「尤度原理」および上記の定理について少し触れられていました.また,どうやら「尤度主義」は<尤度原理に従うという考え方>という意味のようで,「尤度原理」と「尤度主義」は,ほぼ同義のように思われます.「尤度主義」は,これまでちょくちょく目にしてきました.

 

「十分原理」かつ「弱い条件付け原理」が何か分からずに定理が言わんとすることを語感だけから妄想すると,「強い尤度原理」を積極的に利用したくなります(つまり,尤度主義者になりたくなります).初めて私が聞いた時の印象は,「十分統計量を用いて,かつ,局外パラメーターを条件付けで消し去る条件付き推測をしたならば,それは強い尤度原理に従っている推測となる」という定理なのだろうというものでした.このブログ記事を読めば分かるように,私のこの第一印象は「十分原理」および「弱い条件付け原理」を完全に間違えています.

 

TwitterでのKen McAlinn先生(@kenmcalinn)による呟きによると,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも従うことになる」という定理は,Birnbaum(1962)が原論文のようです.原論文では逆向きも成立することも触れていますが,このブログでは「(十分原理 & 弱い条件付け原理) → 強い尤度原理」の向きだけを扱います.

TwitterでKen McAlinn先生(@kenmcalinn)は次のようにも呟いています.以下の呟きは,一連のスレッドの一部だけを抜き出したものです.

 

また,Deborah Mayo先生がブログや論文などで「(十分原理 & 弱い条件付け原理) → 強い尤度原理」という定理の証明を批判していることは,Twitterにて黒木玄さん(@genkuroki)も取り上げています.

 

内容

以下では,まず,「強い尤度原理」の定義を紹介します.また,「十分原理」と「弱い条件付け」のBirnbaum定義を紹介します.その後,Birnbaumによる「(十分原理 & 弱い条件付け原理)→ 尤度原理」の証明を見ます.最後に,Mayo(2014)による批判を紹介します.

 

強い尤度原理・十分原理・弱い条件付け原理

私が証明したい定理は,「もしも『十分原理』および『弱い条件付け原理』に私が従うならば,『強い尤度原理』にも私は従うことになる」という定理です.

 この定理に出てくる「十分原理」・「弱い条件付け原理」・「尤度原理」という用語のいずれも,伝統的な初等統計学で登場する用語ではありません.このブログ記事でのこれら3つの用語の定義を,まず述べます.これらの定義はMayo(2014)で紹介されているものとほぼ同じ定義だと思うのですが,私が何か勘違いしているかもしれません.

「十分原理」と「弱い条件付け原理」については,Mayoが主張する定義と,Birnbaumの元の定義が異なっていると私には思われるため,以下では,Birnbaumの元の定義を「Birnbaumの十分原理」と「Birnbaumの弱い条件付け原理」と呼ぶことにします.

強い尤度原理

強い尤度原理を次のように定義します.

 

強い尤度原理の定義(Mayo 2014, p.230):同じパラメータ  \theta を共有している確率密度関数(もしくは確率質量関数)  f_1(.;\theta), f_2(.; \theta) を持つ2つの実験を,それぞれ  E_1, E_2 とする.これら2つの実験から,それぞれ  {\bf x}^*, {\bf y}^* という結果が得られたとする.あらゆる\thetaに関して f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) である時に,{\bf x}^* から得られる推測と,{\bf y}^* から得られる推測が同じになっている場合,「尤度原理に従っている」と言うことにする.

 

かなり抽象的なので,馬鹿げた具体例を述べたいと思います.いま,表が出る確率が \theta である硬貨を3回投げて,k 回だけ表が出たとします. この二項実験での k=0,1,2,3の尤度は,次表のようになります.

 

k

二項実験の尤度

0

(1-\theta)^3

1

 3\theta(1-\theta)^2

2

3\theta^2(1-\theta)

3

\theta^3

 

このような二項実験に対して,尤度が定数倍となっている「負の二項実験」があることが知られています.例えば,二項実験で3回中1回だけ表が出たときの尤度は,あらゆる \theta に関して,次のような尤度の定数倍になります.

  • 表が1回出るまでコインを投げ続ける実験で,3回目に初めて表が出た
  • 裏が2回出るまでコインを投げ続ける実験で,3回目に2回目の裏が出た

尤度原理に従うために,このような対応がある時には同じ推測結果を戻すことにします.上記の数値例で言えば,

  • コインを3回投げる二項実験で,1回だけ表が出た時
  • 表が1回出るまでの負の二項実験で,3回目に初めての表が出た時
  • 裏が2回出るまでの負の二項実験で,3回目に2回目の裏が出た時

には,例えば,「今晩の晩御飯はカレーだ」と常に推測することにします.他の k に関しても,次のように,対応がある場合(尤度が定数倍になっている時)には同じ推測(下表の一番右の列)を行うようにします.

 

k

3回コインを投げる二項実験の尤度

表がk回出るまでの負の二項実験が,計3回で終わった場合の尤度

裏が(3-k)回出るまでの負の二項実験が,計3回で終わった場合の尤度

推測結果

0

 (1- \theta)^3

NaN

 (1- \theta)^3

私はかっこいい

1

 3\theta(1-\theta)^2

 \theta(1-\theta)^2

 2\theta(1-\theta)^2

今晩はカレー

2

 3\theta^2(1-\theta)

 2\theta^2(1-\theta)

 \theta^2(1-\theta)

 {\mathbf \theta} {\bf =} {\bf 0}

3

 \theta^3

 \theta^3

NaN

1 + 1 = 5

 

これは馬鹿げた例ですが,このブログ記事では,上記の例のような推測でも「強い尤度原理に従っている」と言うことにします.

なお,一番,お手軽に,強い尤度原理に従うのは,常に同じ推測結果を戻すことです.例えば,どんな実験をしようとも,そして,どんな結果になろうとも,「私はかっこいい」と推測するのであれば,その推測は(あくまで上記した定義の上では)強い尤度原理に従っています.

もっとも有名な尤度原理に従っている推測方法は,最尤推定におけるパラメータの点推定です.■追加■ パラメータに対するWald検定・スコア検定・尤度比検定(および,それに対応した信頼区間)も尤度原理に従います.また,ベイズ推測において,予め決めた事前分布と尤度をずっと変更せずにパラメータの事後分布を求めた場合も,尤度原理に従っています.

尤度原理に従っていない有名な推測方法は,■間違いのため修正→■ハウツー統計学でよくみられる標本区間をもとに求められる統計的検定や信頼区間です(Mayo 2014; p.227).他にも,尤度原理に従っていない例は山ほどあります.■間違いのため削除→■最尤推定でも,(尤度が異なれば,たとえ違いが定数倍だけであっても,ヘッセ行列が異なってくるので)標準誤差の推定は尤度原理に従っていません(Mayo 2014; p.227におけるBirnbaum 1968の引用).ベイズ推測でも,ベイズ流p値(Bayesian p-value)は尤度原理に従っていません.古典的推測であろうが,ベイズ推測であろうが,モデルチェックを伴う統計分析(例えば,残差分析でモデルを変更する場合や,ベイズ推測で事前分布をモデルチェックで変更する場合),探索的データ分析,ノンパラメトリックな分析などは,おそらく尤度原理に従っていないでしょう.

 

Birnbaumの十分原理

初等数理統計学で出てくる面白い概念に,「十分統計量」というものがあります.このブログ記事では,十分統計量を次のように定義します.

 

十分統計量の定義:確率ベクトル  {\bf X}確率密度関数(もしくは確率質量関数)が, f({\bf X}; \theta) だとする.ある統計量のベクトル  {\bf  T}({\bf X}) {\bf X} を条件付けた時の条件付き分布が, \thetaに依存しない場合,その統計量のベクトル {\bf T}({\bf X})を「十分統計量」と呼ぶことにする.

 

この十分統計量を使って,「Birnbaumの十分原理」を次のように定義します.

 

Birnbaumの十分原理の定義:ある1つの実験 E の結果から求められるある十分統計量 {\bf t}_E(.)において, {\bf t}_E({\bf x}^*) ={\bf t}_E({\bf y}^*) を満たしているならば,実験 E {\bf x}^* に基づく推測と,実験 E {\bf y}^* に基づく推測が同じになっている場合,「Birnbaumの十分原理に従っている」と言うことにする.

 

具体的な例を挙げます.同じ部品を5回だけ測定するという実験を考えます.測定値は正規分布に従っているとして,研究者はそのことを知っているとします.この実験で,標本平均100.0と標本標準偏差20.0が得られました.標本平均と標本標準偏差のペアは,母平均と母標準偏差の十分統計量となっています(証明は略します.数理統計学の教科書をご覧下さい).同じ実験で測定値を測ったところ,個々のデータは異なるものの,やはり,標本平均100.0と標本標準偏差20.0が得られました.この場合,1回目のデータから得られる推測と,2回目のデータから得られる推測とが同じである場合に,「Birnbaumの十分原理に従っている」と言います.

もちろん,Birnbaumの十分原理に従わないような推測方法はあります.古典的推測であれ,ベイズ推測であれ,モデルチェックを伴う推測はBirnbaumの十分原理に従っていないでしょう(Mayo 2014, p.230におけるCasella and Berger 2002の引用).モデルチェックは多くの場合,残差などの十分統計量ではない統計量に基づいて行われます.

検定統計量が離散分布である場合(例えば,二項検定やFisher「正確」検定など)のNeyman流検定で提案されている「確率化(randomization)」を行った時も,Birnbaumの十分原理に従いません.確率化を行った場合,有意/非有意の境界にある場合は,サイコロを降って結果が決められます.つまり,全く同じデータであっても,推測結果は異なってきます.

 

Birnbaumの弱い条件付け原理

Birnbaumの弱い条件付け原理は,「混合実験」と呼ばれている仮想実験に対して定義されます.

 

混合実験の定義E_1, E_2という2つの実験があるとする.サイコロを降って,どちらかの実験を行うのを決めるとする.この実験の結果としては, E_1, \ E_2のどちらの実験を行ったか,および,行った個別の実験( E_1 もしくは  E_2)の結果を記録する.このような実験 E_{mixed}を「混合実験」と呼ぶことにする.

 

「混合実験」の具体的な例を挙げます.サイコロを降って1の目が出たら,計3回,コインを投げることにします.サイコロの目が1以外の場合は,裏が2回出るまでコインを投げ続けることにします.この実験は,「混合実験」となっています.

 

Birnbaumの弱い条件付け原理の定義E_1, E_2という2つの実験があり,それら2つの実験の混合実験を  E_{mixed} とする.混合実験  E_{mixed} での実験結果 {\bf z}に基づく推測が,該当する実験だけ(E_1 もしくは E_2のいずれか1つだけ)での実験結果 {\bf z}に基づく推測と同じ場合,「Birnbaumの弱い条件付け原理に従っている」と言うことにする.

 

うまく説明できていませんが,より具体的には次のようなことです.いま,混合実験においてE_1の実験が選択されたとして,その結果が  {\bf x} だったとします.その場合,実験  E_1 だけを行って {\bf x}が得られた時を考えます.この時,Birnbaumの弱い条件付け原理に従っているならば,混合実験に基づく推測結果と,実験  E_1 だけに基づく推測結果が同じになっていなければいけません( E_2 に関しても同様です).

Birnbaumの弱い条件付け原理に従わない推測方法もあります.一番有名な例は,Coxが挙げた2つの測定装置の例でNeyman-Pearson流の推測方法に従った場合です(Mayo 2014, p.228).いま2つの測定装置A, Bがあったとします.初めにサイコロを降って,3以下の目が出れば測定装置Aを,4以上の目が出れば測定装置Bを用いることにします.どちらの測定装置が使われるかは,研究者は知っているものとします.5回,測定するとします.測定装置Aでの測定値は N(\mu, 100^2)に従っています.測定装置Bでの測定値は N(\mu, 0.1^2)に従っています.これらの分布の情報も研究者は知っているものとします.ただし, \muは未知です.いま,測定装置Aが選ばれて5つの測定値が得られました. H_0: \mu = 0, \ H_1: \mu \gt 0を検定する場合にどのような検定方式にしたらいいでしょうか? 直感的に考えると,測定装置Bは無視して,測定装置Aしかない世界で実験をしたと思って検定方式を導出すればいい(つまり,弱い条件付け原理に従えばいい)と思うでしょう.しかし,たとえ今回の1回では測定装置Aだけしか使われなかったとしても,測定装置Bも考慮して棄却域を設定した方が,混合実験全体(サイコロを降って行う混合実験を何回も繰り返した全体)での検出力は上がります(証明は省略します).

 

 Birnbaumによる「(十分原理 & 弱い条件付け原理)→ 強い尤度原理」の証明

この節の証明は,Robert(2007: 2nd ed., pp.18-19)を参考にしました.ほぼ同じだと思うのですが,私の理解が甘く,勘違いしているところもあるかもしれません.

前節までで用語の説明をしました.いよいよ証明に入ります.証明したいことは,以下の定理です.便宜的に「Birnbaumの定理」と呼ぶことにします.

 

Birnbaumの定理:もしも,Birnbaumの十分原理,および,Birnbaumの弱い条件付け原理に私が従うのであれば,強い尤度原理にも私は従うことになる.

 

証明:

実験  E_1 を行って  {\bf x}^* という結果が得られたとする.仮想的に,実験  E_2 も行って  {\bf y}^* という結果が得られたと妄想する. E_1, E_2確率密度関数(もしくは確率質量関数)が, f_1({\bf x}^*; \theta), \ f_2({\bf y}^*; \theta)だとする. 証明したいBirnbaumの定理は,「Birnbaumの十分原理およびBirnbaumの弱い条件付け原理に従い,かつ, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) ならば, E_1 での {\bf x}^*に基づく推測と E_2 での {\bf y}^*に基づく推測は同じになる」と,言い換えることができる.

さらに,仮想的に,50%/50%の確率で  E_1E_2 のいずれかを行う混合実験 E_{mixed} を妄想する.

Birnbaumの条件付け原理に私が従うならば,

  •  E_1 での  {\bf x}^* に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^* に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

になるような推測方式を私は用いることになる.

ここで, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta) とする.そして, E_{mixed} での統計量  {\bf t} として,

  • (i, {\bf z}) = (1, {\bf x}^*) もしくは (2, {\bf y}^*) ならば,  {\bf t}= (1, {\bf x}^*)
  • それ以外ならば, {\bf t} = (i, {\bf z})

という統計量を考える.ここで, i =1, 2 はどちらの実験が行われたかを示す添え字であり, {\bf z} は個々の実験結果である( i=1 の場合は, {\bf z}={\bf x} i=2 の場合は, {\bf z}={\bf y}).

そうすると, {\bf t} で条件付けた時の条件付き確率は以下のようになる.

  • (i, {\bf z}) = (1, {\bf x}^*)の場合: f_{mixed}((i, {\bf z}) = (1, {\bf x}^*)|{\bf t}) = c/(1+c)
  • (i, {\bf z}) = (2, {\bf y}^*)の場合: f_{mixed}((i, {\bf z}) = (2, {\bf y}^*)|{\bf t}) = 1/(1+c)
  • それ以外の場合: {\bf u} = {\bf t}である場合は, f_{mixed}((i, {\bf z}) ={\bf u}|{\bf t}) = 1 {\bf u} \ne {\bf t}である場合は, f_{mixed}((i, {\bf z}) ={\bf u}|{\bf t}) = 0

これらの条件付き確率は \theta を含まないために, {\bf t}(.) は十分統計量である.また, {\bf t}({\bf x}^*)={\bf t}({\bf y}^*)であるので,もしも,Birnbaumの弱い条件付け原理に私が従うのであれば,

  •  E_{mixed} での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

になるような推測方式を私は用いることになる.

以上のことから,Birnbaumの十分原理およびBirnbaumの弱い条件付け原理に私が従い,かつ, f_1({\bf x}^*; \theta) = c f_2({\bf y}^*; \theta)ならば,

  •  E_1 での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ
  •  E_{mixed} での  {\bf x}^*に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ

 となるような推測方式を用いることになるので,

  •  E_1 での  {\bf x}^*に基づく推測と, E_2 での  {\bf y}^*に基づく推測は同じ

になる.

 

■証明終わり■

 

以下に,証明のイメージ図を描きました.下にある2つの円が等価であることを証明するために,弱い条件付け原理に従っているならば上下ペアの円が等価になること,かつ,十分原理に従っているならば上2つの円が等価になることを証明しています.

 

f:id:Tarotan:20201226182112p:plain

等価性のイメージ図


 

Mayo(2014)による批判

前節で述べた証明は,論理的には,たぶん正しいのでしょう.しかし,Mayo(2014)は,上記の証明を批判しています.私の理解している限りでは,Mayo(2014)は,「十分原理」および「弱い条件付け原理」の定義が,常識的に考るとおかしいと述べているのだと思います.

私が理解している限り,Mayo(2014)は,次のように「十分原理」と「弱い条件付け原理」を変更しています.これは私の勝手な解釈であり,Mayo(2014)で明示的に述べられていることではありません.このブログ記事では,Mayo(2014)は次のように定義しているとみなすことにします.

 

Mayoの十分原理の定義:Birnbaumの十分原理を満たしており,かつ,そのような十分統計量  {\bf T}_E だけを用いて推測を行う場合に,「Mayoの十分原理に従う」と言う.

Mayoの弱い条件付け原理の定義:Birnbaumの弱い条件付け原理を満たしており,かつ,

  • 目隠し混合実験  E_{masked} での  {\bf x}^* から得られる推測と, E_1 での {\bf x}^*から得られる推測が異なる
  • 目隠し混合実験  E_{masked} での  {\bf y}^* から得られる推測と, E_1 での  {\bf y}^* から得られる推測が異なる

ようになっている場合,「Mayoの弱い条件付け原理に従う」と言う.

上記の「目隠し混合実験」は私の造語です.前節で述べた「混合実験」は, E_1, \ E_2 のどちらの実験を行ったかの情報を,研究者は推測に組み込んでいます.一方,どちらの実験を行ったかを推測に組み込まない実験のことを,ここでは「目隠し混合実験」と呼ぶことにします.

 

以上のような定義に従うと,50%/50%の確率で  E_1E_2 のいずれかを行う実験で,前節のような十分統計量を用いた場合,データが  (1, {\bf x}^*) もしくは  (2, {\bf y}^*) となると,その十分統計量だけからは,行った実験が  E_1 なのか  E_2 なのかが分かりません.そのため,混合実験ではなくなり,目隠し混合実験となります.よって,Mayoの十分原理とMayoの弱い条件付け原理から導かれるのは,

  •  E_1 での  {\bf x}^* に基づく推測と, E_{mixed} での  {\bf x}^*に基づく推測は同じ
  •  E_2 での  {\bf y}^* に基づく推測と, E_{mixed} での  {\bf y}^*に基づく推測は同じ
  •  E_{masked} での  {\bf x}^* に基づく推測と, E_{masked} での  {\bf y}^* に基づく推測は同じ

 となります.さらに,Mayoの弱い条件付け原理に従うのあれば,

  •  E_{masked} での  {\bf x}^* に基づく推測と, E_1 での  {\bf x}^* に基づく推測は異なる
  •  E_{masked} での  {\bf y}^* に基づく推測と, E_2 での  {\bf y}^* に基づく推測は異なる

 ようにしなければいけません.

以上のことから,Mayoの十分原理とMayoの弱い条件付け原理に私が従ったとしても,尤度原理に私が従うことにはなりません.

 

Mayoの主張のイメージを下図に描いてみました.

まず,上2つの円の十分原理での等価性は,混合実験  E_{mixed} ではなくて,目隠し混合実験  E_{masked} で成立しています.そして,Mayoの定義での弱い条件付け原理からは,上下の円のペアでは等価性が成立してはいけないことになります.

 

 

f:id:Tarotan:20201226194350p:plain

非等価性のイメージ


 

感想

まだMayo(2014)の読み込みが甘いですが,また,Birnbaum(1962)の原論文,Mayo(2014)に対するリプライ論文,Ken McAlinn先生がTwitterで紹介している論文を一切,目を通していませんが,私の解釈が正しいのであれば,Mayo(2014)の十分原理や弱い条件付けの定義は,元のBirbaumによる定義よりも,穏当なものだと私は感じました. 

 

参考文献 

Birnbaum, A. (1962). On the Foundations of Statistial  Inference. Journal of the American Statistical Association, 57(298). 269-306.

Mayo, D. G. (2014).  On the Birnbaum Argument for the Strong Likelihood Principle. Statistical Science, 29(2), 227-239.

Robert, C. P. (2007:2nd ed.). The Bayesian Choice: 2nd ed. Springer

 

Fisherの紅茶実験は実話なのか?

R.A. Fisherの紅茶実験に対する3つの説について

このブログ記事では,Fisher(1935a)の第2章で登場する紅茶実験が実話かどうかについて述べます.

Fisher(1935a)の紅茶実験は,"Lady Tasting Tea"という名称でも知られており,英語の Wikipediaでも項目が立っています(2020年7月24日現在).

en.wikipedia.org

 岩沢(2014, pp.214-218)によると,この紅茶実験が実話かどうかについて,次の3つの説があります.

  1. 1920年代末のケンブリッジでの実話であり,Fairfield Smithが同席していた.
  2. 1919年〜1923年の Rothamsted農業試験場で,Fisher(1935a)での紅茶実験の原型となるだろう出来事があった,この時の被験者は,藻類学者の B. Muriel Bristol(結婚後は,B. Muriel Bristol-Roach)である .
  3. 仮想の話である.

以下のブログ記事でも少し触れたのですが,本記事ではもう少し詳しく述べたいと思います.

読書感想:西内啓(2013)『統計学が最強の学問である』ダイヤモンド社 - Tarotanのブログ

岩沢(2014, pp.217-218)では,次のように述べられています.

本項に登場した人物たちが(多少の脚色はあっても,大きな勘違いや記憶違いもなく)すべて正直に語っているとすれば,どういうことだろう.その場合,「有名な実験」と似たようなできごとは何度かあったということだ. 

 本記事での私の主張は,以下の通りです.

  • 1番目の説で述べられている出来事は,信憑性がない.少なくとも1935年以前には,1番目の説で述べられている出来事は生じていない.
  • Fisher(1935a)の内容から考えると,3番目の説が整合性が取れている.
  • Fisher(1935a)の紅茶実験の例は,Neymanを批判したエアリプであろう.

 

1番目の説:Fairfield Smith同席説

まず,1番目の説は信憑性がないと思います.

1番目の説は,Salsburgの "The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century" の冒頭(Salsburg 2001: pp.1-8,2010 訳書単行本:pp.21-31)で述べられています.Salsburg(2001: p.2,訳書単行本:p.23)では,この話を H. Fairfield Smith(本名 Hugh Smith )から聞いたとしています.

この1番目の説は,3つのなかでは一番,有名な説でしょう.同書は日本語訳書(竹内・熊谷訳 2006, 単行本:2010)がありますし,西内(2013: pp. 102-107)でも取り上げられているので,3つのなかではこの1番目の説を知っている人が最も多いでしょう.

しかし,次の3つの理由により,1935年以前に,つまり,Fisher(1935a)が書かれた以前に,1番目の説で述べられている出来事が生じた可能性はとても低いです.

第1に,1935年以前の R.A. Fisherは,1919年〜1933年までは Rothamsted農業試験場で,1933年からはUniversity Colledge, Londonで働いていました.Cambridge大学に移ったのは,1943年です.1913年以前の学生時代も Cambridge大学でしたが,1920年代〜1935年の間は,R.A. Fisherは Cambridgeには住んでいません.以上の R.A. Fisherの経歴については,芝村(2004, pp.21-23)でまとめられています.

第2に,Fisher-Box(1978, p.276)によると,H. Fairfield Smithが(R.A. Fisherのもとで統計学を学ぶために,学生として)R.A. Fisherと初めて会ったのは,1935年です.1920年末には,H. Fairfield Smithは,R.A.Fisherと面識がありません.

つまり,Cambridgeという場所も,1920年代末という時期も,おかしいのです.

第3に,Fisher-Box(1978)の序における謝辞を読む限り,Fisher-Box(1978)において H. Fairfield Smithは Fisher-Boxに情報を提供しています.しかし,Fisher-Box(1978)には,1番目の説のような紅茶実験の話は一切,出てこず,後述する2番目の説しか登場しません.もし1番目の説が本当ならば,H. Fairfield Smithは,Fisher-Boxには逸話を内緒にしていてSalsburgだけに打ち明けたことになりますが,その動機が思いつきません.

以下は,私の妄想です.H. Fairfield Smithは,2番目の説をFisher-Box(1978)で知っていたのだと思います.もしそうならば,H. Fairfield Smithは,2番目の説の話を,Salsburgに話しただけなのだと思います*1.その際,場所や時間は,H. Fairfield Smithもしくは Salsburgのいずれかが(もしくは両者が)記憶違いしたのだろうと私は思います.以上,私の妄想でした.

 

かなり弱い証拠ですが,1番目の説の信憑性がないことの間接的な証拠もあります.紅茶実験の話だけが信用できない訳ではなく,Salsburg(2001)で述べられている逸話の多くが,信憑性がないのです.Salsburg(2001)の訳書(竹内・熊谷訳 2006)の訳者あとがきには,次のように述べられています(単行本版 p.450).

ただ本書を統計学史の書として位置づけた場合、二つの問題がある。一つは著者が学史の研究者でないこともあってか、事実関係の検証に若干不十分な部分があるため、原書には誤った記述が少なからず残っていることである。たとえばオーストラリアのアデレード大学名誉教授のルードブルック氏が指摘している(Ludbrook, J., "R.A. Fisher's Life and Death in Australia, 1959-1962," American Statistician, Vol59, No.2, pp.164-165, 2005.)ように、第1章の紅茶の逸話は、フィッシャーの娘による伝記によると、フィッシャーのケンブリッジ大学時代の出来事ではなく、一九二〇年代のロザムステッド試験場時代の出来事である。

Salsberg(2001)における事実誤認を指摘した書評には,上記の訳者あと書きで述べられているLudbrook(2005)のほかにも,Porter(2001),Cox(2001)があります.Porter(2001: p.469)では,Alan Sokal事件を挙げながら「それらの誤りはあまりにも酷く,基本的なものなので、名声のある出版社のレビュー能力を試すために、著者[Salsburg]がわざと誤りを残しておいたのではないかと想像してしまいそうになる」(p.469. 拙訳)と酷評しています.

Salsberg(2001)で述べられている多くの逸話は信憑性はないが,この紅茶実験の逸話だけは信用できると思える理由は,特にないです*2

  

2番目の説:B. Muriel Bristol博士説

2番目の説は,Fisher-Box(1978, p.134)で述べられています.

Fisher-Box(1978, p.134)で,次のような逸話が紹介されています(以下はパラフレーズです).R.A. Fisherが,1919年に Rothamsted農業試験場に就職してからしばらくした時のことです.アフタヌーンティーの休憩にて,R.A. Fisherが紅茶を B. Muriel Bristolのカップに注ごうとしたところ,ミルクを先に入れてから紅茶を入れてほしい,として止められました.R. A. Fisherはナンセンスな話だとして笑ったところ,その場にいたWilliam Roachが,彼女を試してみようと提案し,実験が行われました.以上は,Fisher-Box(1978, p.134)で述べられている逸話をパラフレーズしたものです.

B. Muriel Bristolは,1927年もしくは1928年までRothamsted農業試験場の"Mycological Laboratory"という部門で勤務していた藻類学者(博士*3)です.Bristol(1919),Bristol(1920),Bristol-Roach(1926)といった論文のタイトルを見る限り,土の中でも育つ藻類を研究していたようです.

この2番目の説の語り部は,William Roachという人物です.William Roachは,1923年にB. Muriel Bristolと結婚します(Senn 2012, p.30, p.33).William Roachは,Rothamsted農業試験場の"Laboratory for Antiseptics, Insecticides, etc.-"という部門で働いており,学歴は修士(M. Sc.)でした.ちなみに,R.A. Fisherの学歴も,少なくとも1920年頃当時は修士(M.A.)です.

B. Muriel Bristol(B. Muriel Bristol-Roach)は,1950年に亡くなっています(Senn 2012, p.30).R.A. Fisherは,1962年になくなっています(芝村 2004, p.23).Fisher-Box(1978)が書かれた1970年代には,3人のうちWilliam Roachしか残っていませんでした.

Fisher-Box(1978, p.134)によると,B. Muriel BristolとWilliam Roachが結婚する前に,この出来事は起きたようです.よって,R.A. Fisherが就職した1919年以降で,結婚するまでの1923年までで,この出来事は起きただろうと推測できます.

Bristol-Roachは一般人や貴婦人なのか?

B. Muriel Bristol(B. Muriel Bristol-Roach)は,"a lady"と呼ばれるような人物だったのでしょうか? 私はそう思いません.

私は,次の点を強調したいと思います.B. Muriel Bristol(B. Muriel Bristol-Roach)は,"a lady"などの一般名詞の存在で扱われるような人ではなく,ある程度の学術的な業績をもち,固有名詞が指示されるような研究者であったという点です.3つほど証拠を挙げたいと思います.

第1に,Bristol(Bristol-Raoch)は,1925年に出版された統計学のハウツー本であるFisher(1925)に,固有名詞で挙げられています.Fisher(1925, p.123)において,同ページで扱われている藻に関するデータは,"Dr. M. Bristol-Roach"のデータであると述べられています.また,巻末の文献リストには,Bristol-Roachの論文が挙げられています*4

第2に,Bristol(Bristol-Roach)は,論文をいくつも出しています.少しネット検索しただけでも,Bristol(1917), Bristol(1919),Bristol(1920),Bristol-Roach(1926)といった論文を出しています*5

第3に,1926年のオーストラリアの新聞でも,「彼女[Dr. Muriel Bristol Roach]は,キャリアを積んでいる結婚後の女性の一例である」(The Argus 1926)のように紹介されています.ここでも,一般名詞ではなく,固有名詞で登場しています.

Bristol(Bristol-Roach)は,固有名詞で指示されるような研究者でした.しかし,途中から研究者のキャリアから外れたようです.Rothamstead農業試験場の報告書(Rothamsted Experimental Station 1929)を読む限り,1927年〜1928年の間で夫のWilliam Roachとともに,Bristol-Roachは,Rothamstead農業試験場を退職しています.William Roachは,"Biochemist"として"East Malling Research Station"というところに勤める予定となっていますが,Bristol-Roachの転職先は空白になっています.ここからは私の妄想ですが,おそらく,Bristol-Roachは,Rothamstead農業試験場を退職後に,専業主婦となったのではないでしょうか.おそらく,William Roachの転職に伴い,引越ししないといけなくなり,Bristol-Roachは転職先が見つからなかったのではないでしょうか.藻類学者は,大学や研究所以外で職を探すのは難しそうです.この1928年以降,Bristol-Roachの論文は途絶えます.以上,私の妄想でした.

ladyは,Bristol-Roachなのか?

Fisher-Box(1978, p.134)では,おそらくは1919年〜1923年の間で起きた出来事が,Fisher(1935a)の第2章における実験計画の原型のひとつになったのだろうと予想しています.しかし,次の3つの理由により,Fisher(1935a)における"a lady"がBristol(Bristol-Roach)であるとは,私は思いません.

まず第1に,前節で述べたように,Bristol(Bristol-Roach)は固有名詞で呼ばれるべき研究者であり,名前がない一般女性ではないですし,ましてや,上流階級の貴婦人ではないので,"a lady"という呼称は相応しくないでしょう.

第2に,1934年6月11日付けで,R.A. FisherはWilliam Roachに手紙を書いており,(Bristol-Roachの論文をWilliam Roachが送付したお礼だと思いますが)“… and many thanks for your wife’s papers, which I am sure will be useful.”というようにBristol-Roachに言及しています.しかし,紅茶実験については一切,述べていません(Fisher 1934).Box-Fisher(1978)でも,R.A. Fisherから"a lady"はBristol-Roachのことだよと聞いた,とは William Roachは述べていません.もし,R.A. Fisherが"a lady"に Bristol-Roachをイメージしていたのであれば,William Roachにはそのように伝えていたと私は思います.

第3に,時間が空きすぎです.2番目の説の紅茶実験が行われたのが1919年〜1923年で,Fisher(1935a)から12年〜16年になります.そんなに時間が空いているのに,"a lady"をBristolもしくはBristol-RoachをイメージしてR.A. Fisherが書いたとは思えません.ミルク先/ミルク後論争は,昔から行われていた論争であり,1935年あたりでも新聞などでたびたび取り上げられていました.新聞などの記事ではなく,1919年〜1923年の出来事を思い出して書いたとは私は思えません.

 

3番目の説:仮想説

3番目の説は,仮想例であった,というものです.この説が一番,もっともらしいと私は思います.

岩沢(2014, pp.217)で指摘されているように,Kendall(1963, p.5)にて「[Fisherに尋ねたところ]Fisherはそのような実験を行ったことはないと言った」(p.5)と書かれています.Fisher自身が言っていたことなので,この話が最も信憑性が高いと私は思います.

以下,私の妄想です.岩沢(2014, pp.217)も指摘するように,2番目の説のような出来事が実際に行われていたのでしょう.しかし,R.A. Fisherは1935年の執筆時には,その出来事を忘れていたか,覚えていたとしても,その出来事をもとに書いたのではないのでしょう.以上,私の妄想でした.

また,Newman Neyman(タイポ修正: 2023/12/31)(1960, p.1458)の解説においても,下記のようにFisher(1935a)で出てくる"a lady"を,"hypothetical lady"と述べています(赤字は,筆者による).

The second chapter of the latter book is entitled “The Principles of Experimentation, Illustrated by a Psycho-Physical Experiment.” It concerns a lady who says that when a cup of tea is made with milk she is able to tell whether the tea or milk was first added to the cup. The surpassing nicety of taste displayed by this hypothetical lady provides Sir Ronald with the excuse for a most remarkable series of experiments.

なお,R.A. Fisherが亡くなったのは1962年です(例えば,芝村 2004, p.23)ので,この書籍が出版された1960年にはまだ存命でした*6

 

Fisher(1935a)の第2章には何が書かれているか?

西内(2013,p.101)では,「[...]ランダム化比較実験がどれだけ強力か、本節で説明するその最も大きな理由は、「人間の制御しうる何物についても、その因果関係を分析できるから」である。」と述べられており,その後,竹内・熊谷訳(2006)で述べられている出来事(1番目の説)がパラフレーズされています.西内(2013)だけを読むと,ランダム化比較実験が最強の方法だと R.A. Fisherが述べているように思えてしまします.しかし,少なくともFisher(1935a)の第2章で述べられているものは,逆の主張であると私は思います.

Fisher(1935a, pp.15-16)では,次のようなことが書かれています(以下は引用ではなく,パラフレーズしたものです).有意性検定にて5%などを基準にすると便利ではあるが,p値が100万分の1であっても,その現象は(帰無仮説が正しくても)100万分の1で生じるのだから,独立した1つの実験だけでは,実験的例証(experimental demonstration)を示すには不十分である.だから,ほぼいつも実験結果が有意になる実験手順を知っている時に限って,その現象は実験的に例証可能であると言うべきである.以上,Fisher(1935a, pp.15-16)のパラフレーズです.つまり,Fisher(1935a)において,<ある1つの実験が有意になったのであれば,該当する現象が実験により例証できたとされるのだ>とR.A. Fisherは主張していません.<何回,実験を行ったとしても,毎回,有意な結果をほぼ常に出せる場合にのみ,実験により例証できると言える>と,R.A. Fisherは主張しているのです.

Fisher(1935a)における以上の主張を,私は重視します.そして,Fisher(1935a)の紅茶実験は,ランダム化比較実験の最強さ(無敵さ,無双さ)を示すための仮想例ではない,と私は思います.むしろ逆に,紅茶実験の例は,ランダム化比較実験の弱さ(貧弱さ)を示すための例であると,私は思います.より詳しく述べると,<ある1つの実験の有意性検定で有意になったからといって,常識的に考えて,我々の紅茶論争は終わらないでしょ.科学での議論も,紅茶論争と同じですよ>ということを伝えるための例になっている,と私は思います.

 

Fisher(1935a)第2章に見られるNeyman批判

書き方が直接的ではないので分かりづらいのですが,Fisher(1935a)の第2章は,Neyman(とE. Pearson)を批判していると思われます.Fisher(1935a)でのNeymanに対する批判は,端的に述べると,<帰無仮説と対立仮説が少数のパラメーターで表現できるような問題は,統計的検定の問題ではなく,推定の問題である>というものです.

 

第1版(Fisher 1935a, p.20)には,次のような記述があります.

The "error," so called, of accepting the null hypothesis "when it is false," is thus always ill-defined both in magnitude and frequency. 

 この「帰無仮説が間違えている時に,帰無仮説を採択する「誤り」」は,「第2種の誤り」と呼ばれているもので,Neyman and Pearson(1933)において登場する概念です.ぼんやりとしかわかりませんが,Neyman(とE. Pearson)を批判しているように読めます.

第3版(1942)もしくは第4版(1947)になると,Neyman(とE. Pearson)に対する批判はより明確になります.上記の引用部分は,次のように改訂されています(以下,遠藤・鍋谷訳 1971 ,p.15より引用).

統計的 "推定" を伴う場合には,仮説として可能な系列を同時に考慮するように,これらの概念を拡張することができる.その場合,帰無仮説が”誤っている”ときに,それを採択することによって生じるいわゆる”第2種”の誤りの概念には,推定すべき量に関連してその意味が与えられる.利用できる事がらは帰無仮説が正しいときに生じるものだけであるような,単純な有意性検定については,第2種の誤りの概念は意味を持たない.[...]

初版よりは 少し分かりやすくなって,Neyman(とE. Pearson)を批判していることがより明確になりましたが,まだ意味が分かりづらいです*7

1930年代中期において,Neyman(とE. Pearson)の何をR.A. Fisherが批判していたかについては,Fisher(1933)の説明が分かりやすいです.Fisher(1933, p.296)には次のように述べられています.

it is surprising that Neyman and Pearson should lay it down as a preliminary consideration that “the testing of statistical hypotheses cannot be treated as a problem in estimation.” When tests are considered only in relation to sets of  hypotheses specified by one or more variable parameters, the efficacy of the tests can be treated directly as the problem of estimation of these parameters. 

 

より端的に表現しているのは,Demingの論文についてE. B. Wilsonに向けて書いた1935年5月20日付けの手紙です(Fisher 1935b).次のように書かれています.

His Deming’simpression as shown on page 5, that what he calls the u test is somehow more fundamental than Student’s t test seems to rest on a confusion between problems of estimation & tests of significance - confusion which has been, I am afraid, accentuated by the discussions of Neyman and Pearson on the subject. 

以上のように,R.A. Fisherは,推定の問題,つまり,点推定や信頼区間(R. A. Fisherの用語では fiducial limits)と,統計的検定(R. A. Fisherの用語では test of significance)を異なる問題として区別していました.そして,対立仮説が想定でき,かつ,帰無仮説と対立仮説が少数のパラメーターで表現できるような問題は,統計的検定の問題ではなく,推定の問題だとみなすべき,と主張していました.

Fisher(1935a)の第2章における紅茶実験の例は,帰無仮説や対立仮説が少数のパラメーターでは表現できません.感度(Neymanの用語における検出力)を上げるためには,条件(茶葉の種類,ミルクの種類,砂糖を入れるかどうかなど)を同じにした方がいいだろうものの,8つのカップにおけるミルクティーは,(ミルク先/ミルク後以外の条件が)まったく同じにはなりません.被験者のコンディションも,飲むたびに刻々と変化するものでしょう.そのため,たとえば,1杯目のカップを当てる確率が0.8であったとしても,2杯目のカップを当てる確率は0.5かもしれません.

推定の問題では扱えないような例として,R.A. Fisherは紅茶実験の例を挙げたのだろうと,私は思います.Fisher(1935a)の第2章における例は,<表が出る確率が0.8である偏ったコインを10回投げたらどうなるか?>といった対立仮説が想像できるものでは,まずかったのです.統計的検定の問題としてしか扱えない例を,Fisher(1935a)の第2章で,R.A. Fisherは提示したかったのでしょう.

Neymanの名前は挙げられていないものの,Fisher(1935a)の第2章,特に提示されている紅茶実験の例は,Neymanに対する批判となっています.その意味で,Fisher(1935a)の第2章は,現代風に言えば,エアリプの悪口だったのだろうと私は思います.

Fisher(1935a)ではNeymanの名前は挙げられていないのですが,おそらくNeyman本人は,自分の枠組みに対する批判だと敏感に感じ取ったのだと思います.Neyman(1950)において,実験方法をFisher(1935a)のものとは大幅に変えて,"a lady"*8がミルク先/ミルク後を識別できるかどうかを決定する手順を提示しました.Fisher(1935a)の実験方法では,8杯のミルクティーのうち4杯はミルク先,4杯はミルク後にして,被験者に一度に提示するといったものでした.Neyman(1950, p.272)では,各試行に十分に間隔をあけて(たとえば,ある程度の日数を開けた朝食において),条件を同じにしたミルク先/ミルク後のペアを提示し,どちらがミルク先で,どちらがミルク後かを当ててもらう,という実験方法に変えています.このように変更すれば,問題は,偏ったコインの問題(二項分布のパラメーターを検定するという問題)になります.Neymanは,敏感に R.A. Fisherのエアリプ批判を感じ取って,このような反論を行ったのでしょう.

 

ゴジップ 

最後にゴシップを書いておきます.

1933年の K. Pearsonの引退に伴い,UCLDepartment of Applied Statistics and Eugenicsは,E. PearsonをトップとするDepartment of Statisticsと,R. A. FisherをトップとするDepartment of Eugenicsに分割されました(The UCL Inquiry into the History of Eugenics 2020, p.23).Neymanは,Department of Statisticsで働いていました.R. A. FisherK. Pearsonには激しい論争があり,R. A. FisherE. Pearsonにも論争があったのですが,この1933年ぐらい以降からR. A. FisherNeyman(とE. Pearson)を批判するようになります.紙面上の学術的な論争に止まらず,Fisher-Box1978)やReid1982)を読む限り,UCL学内での雰囲気もかなり悪かったようです.

最後に,これはまったく根拠がなく,非常に浅はかな考えのですが,なぜ,紅茶論争というイギリスの象徴的な論争を R.A. Fisherが統計的検定に対して取り上げたのか,どうしても抜けない考えが私にはあります.Neyman は,生まれは当時ロシア領であったBessarabiaのBenderyであり,ポーランド系の移民でした(Reid 1982, p.5).

 

まとめ

  • H. Fairfiels Smithが述べたとされる,<紅茶実験は 1920年末のケンブリッジで行われた>という説は,信憑性がありません.
  • R. A. Fisherは,自分の主張を補強するための仮想的な例として,紅茶実験の例を思いついたのでしょう.
  • 紅茶実験の例は,Neymanに対するエアリプ批判だったのでしょう.

 

参考文献

英語文献(および翻訳書)

The Argus(新聞記事)(1926) Women's Views and News. The Argus 1926-8-27, 14.

(Trove URL:p14 - 27 Aug 1926 - The Argus (Melbourne, Vic. : 1848 - 1957) - Trove 最終閲覧日 2020-7-25)

Bristol, B. M. (1917). On the Life-history and Cytology of Chlorochytrium grande, sp. nov. Annals of Botany, 31(121), 107-126.

Bristol, B. M. (1919). On the Retention of Vitality by Algae from Old Stored Soils. The New Physiologist, 18(3/4), 92-107.

Bristol, B. M. (1920). On the Alga-Flora of Some Desiccated English Soils: An Important Factor in Soil Biology. Annals of Botany, 34(133), 35-80.

Bristol-Roach, B. M. (1926). On the Relation of Certain Soil Algae to Some Soluble Organic Compounds. Annals of Botany, 40(157), 149-201.

Cox, N. J. (2001). Review: The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century by D. Salsburg. Biometrics, 57(4), 1273-1274.

Fisher, R. A. (1925). Statistical Methods for Research Wokers. Oliver and Boyd. 遠藤健児・鍋谷清治訳(1970)『研究者のための統計的方法』森北出版(底本:第13版)

Fisher, R. A. (1926). Letter to William Roach. Adelaid大学アーカイブhttps://digital.library.adelaide.edu.au/dspace/handle/2440/67944(最終閲覧日: 2020-7-25)

Fisher, R. A. (1934). Two New Properties of Mathematical Likelihood. Proceedings of the Royal Society of London. Series A, Containing Papers of a Mathematical and Physical Character, 144(852), 285-307.

Fisher, R. A. (1935a).  The Design of Experiments. Oliver and Boyd. 遠藤健児・鍋谷清治訳(1971)『実験計画法』森北出版(底本:第8版)

Fisher, R. A. (1935b). Letter to E. B. Wilson (1935-05-20).  Adelaid大学アーカイブhttps://digital.library.adelaide.edu.au/dspace/handle/2440/68118(最終閲覧日: 2020-7-25)

Fisher-Box, J. (1978). R. A. Fisher: The Life of a Scientist. John Wiley & Sons.

Kendall, M.G. (1963). Ronald Aylmer Fisher: 1890-1962, Biometrika, 50(1/2), 1-15

 Ludbrook, J. (2005). R. A. Fisher's Life and Death in Australia, 1959-1962. The American Statistician, 59(2), 164-165.

Newman, J. R. (1960). The World of Mathematics (Volume 3). George Allen and Unwin.

Neyman, J. (1950). First Course in Probability and Statistics. Holt, Rinehart and Winston.

Neyman, J. and Pearson, E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal society of London. Series A, Containing Papers of a Mathematical or Physical Character, 231. 289-337.

Porter, T. M. (2001). Statistical Tales (Book Review: The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century, by David Salsburg). American Scientist, September-October, 89(5), 469-470.

Reid, C. (1982). Neyman: From Life. Springer-Verlag. 安藤洋美・長岡一夫・門脇光也・岸吉堯訳(1985)『数理統計学者 イエルジイ・ネイマンの生涯』現代数学社

Rothamsted Experimental Station(1929).  Report 1927-28 with the Supplement to the "Guide to the Experimental Plots" containing the Yields per Acre, etc. D. J. Jeffery.(報告書一覧:http://www.era.rothamsted.ac.uk/eradoc//books/1  最終閲覧日 2020-7-25)

Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. W. H. Freeman and Company. 竹内惠行・熊谷悦生(2006)『統計学を拓いた異才たち』日本経済新聞出版社(文庫本版:2010 )

Senn, S. (2012). Tea for Three: On Infusions and Inferences and Milk in First. Significance, 2012 December, 30-33. (誤り指摘:Ono, Y. (2016), Letters: Milking the Jokes. Significance, 2016 Februrary, 47.)

The UCL Inquiry into the History of Eugenics(2020). Inquiry into the History of Eugenics at UCL: Final Report 

https://www.ucl.ac.uk/provost/sites/provost/files/ucl_history_of_eugenics_inquiry_report.pdf 最終閲覧日 2020-7-25)

 

日本語文献

岩沢宏和(2014)『世界を変えた確率と統計のからくり134話』SBクリエイティブ

芝村良(2004)『R.A. フィッシャーの統計理論:推測統計学の形成とその社会的背景』九州大学出版会

西内啓(2013)『統計学が最強の学問である』ダイヤモンド社

日本統計学会(2006)日本統計学会会報,No.128,2006.7.25

日本統計学会(2017)日本統計学会会報,No.172,2017.7.31

 

お断り

この記事で書かれている内容の全責任は,著者個人だけにあります.所属組織は,いかなる責任も負いません.

 

修正履歴

2020/7/25 19:00頃:文献リストからの文献の抜け(Kendall 1963)を修正

 

*1:Fisher-Box(1978)での2番目の説を隠して,Salsburg には独自の話である1番目の説を話したという可能性もなきにしもあらずですが,そのような手の込んだことをする理由もないでしょう

*2:余談ですが,Salsburg(2001)の訳書(竹内・熊谷訳 2006)や西内(2013)は,名声がある,きちんとした本です.竹内・熊谷訳(2006)は,2006年に日本統計学会75周年記念推奨図書の一冊となっています(日本統計学会 2006, p.6).また,Salsburg(2001)の逸話をパラフレーズしている西内(2013)は,2017年に日本統計学会出版賞を受賞しています(日本統計学会 2017, p.10).

*3:Bristol(1920)では肩書きが"M. Sc."であるものの,1919-1920年におけるRothamsted農業試験場報告書では"D. Sc."となっています.Rothamstead農業試験場に勤務しているときに博士になったものと思われます.

*4:ただし,年・巻号・ページ数が実際に発表されたものと異なります.論文名も少し異なります.実際に発表されたものはBristol-Roach(1926)だと思われます.Fisher(1925)は1925年に出版されているので,公表予定の論文を参照したのだと思われます.

*5:余談ですが,Bristol(1917)の同じ号の1つ前の論文は,日本初の女性博士である保井コノの論文になっています.

*6:余談ですが,このNewman(1960)では,Fisher(1935a)年の第2章を,タイトルを変えて掲載しています.Fisher(1935a)の第2章の章名は「実験の原理,精神物理的実験による説明」(遠藤・鍋谷訳 1971)というものですが,Newman(1960)では「紅茶を嗜む婦人の数学」("Mathematics for a Lady Tasting Tea")という名前に変更しています.現在,Fisher(1935a)の実験は"A Lady Tasting Tea"という名称でも呼ばれていますが,それは,このNewman(1960)の影響でしょう.

*7:なお,第7版(1960)で追加された12.1節では,さらに明確にNeymanを批判しています.

*8:正確には,Neyman(1950)では,"a lady"ではなく,"A Lady"や"the Lady"のように"L"が大文字になっています.Fisher(1935a,p.13)の原文では,先頭にて"A LADY declares ..."となっており,"Lady"なのか"lady"なのかが分からなくなっています.

Can "Bayesian" calculate "the probability that a studied hypothesis is true"?

I asked to Prof. Wasserstein if the #2 in ASA's p-value statement implicitly suggests that "Bayesian" can calculate "the probability that a studied hypothesis is true", and Prof. Wasserstein kindly replied to the question.

 

I come to have this question when I watched debates in Japanese Twitters.

The following book by Toyoda Hideki has been published on March in 2020.

"Rescue Dying Statistics!: [Move] from Significance Tests to "Probability that a Hypothesis is True""

朝倉書店| 瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―

Even before this book was published, Gen Kuroki (@genkuroki), Tokei-Chotto-wakaru-tan(@stattan), UnPainMan(@not_identified2) and some others strongly criticized the main framework in this book (and Tokyoda's previous papers and books) in Japanese Twitter.

The followings are my question and reply from Prof. Wasserstein in this entry.

I thank Prof. Wasserstein for replying to my sudden e-mail and giving me a permission to open his reply. I apologize in advance that I don't follow all discussions in ASA or Japanese Twitter. I also apologize for my poor English. Note that I had sent the following question before the above book has been published.

 

My e-mail to Prof. Wasserstein

Sent: Tuesday, February 4, 2020 9:04 AM
Subject: Question about p-value statement again: Can Bayesian get Pr(H0|D)?

 

Hello, Ron

I am Yusuke Ono at SAS Institute Japan. Last year I have asked a question about "random chance" in the 2016 p-value statement. In this mail, I would like to ask your opinion or advice about "Bayesian" posterior probabilities for hypotheses. I am very sorry again for this long e-mail.


In Wasserstein and Lazar(2016, p.131), the following phrase is written.

"2. P-values do not measure the probability that the studied hypothesis is true, [...]"


Does this sentence suggest implicitly that "Bayesian" posterior probability for a studied hypothesis is "the probability that the studied hypothesis is true"?

--- [Details and Backgrounds] ---
At least if I pick up some explanations partially from textbooks, some of them say "Bayesian" can calculate the probability that the studied hypothesis is true.

For examples, Goodman(2008, p.136) says as below.
"Let us suppose we flip a penny four times and observe four heads, two-sided P = .125. This does not mean that the probability of the coin being fair is only 12.5%. The only way we can calculate that probability is by Bayes' theorem, [...]"


Casella and Berger (2002:2nd ed., p.379) says as below (maybe, based on subjective Bayesian).
"In a hypothesis testing problem, the posterior distribution [in a Bayesian model] may be used to calculate the probabilities that H_0 and H_1 are true."


Casella and Berger (2002:2nd ed., p.436) says as below.

"In contrast, the Bayesian setup allows us to say that \lambda is inside [.262, 1.184] with some probability, not 0 or 1."
(But they also warn on p.436 that "However, remember that nothing comes free. The ease of construction and interpretation comes with additional assumptions. The Bayesian model requires more input than the classical model.)


Good (1965, p.8) says as below (maybe, based on empirical Bayesian).
"Several different kinds of Bayesians exist, but it seems to me that the essential defining property of a Bayesian is that he regards it as meaningful to talk about the probability P(H|E) of a hypothesis H, given evidence E."


Matthews (2019, pp.205-206) says as below.
"However, they [CIs] are certainly not immune, with standard CIs often being interpreted as the range within which the true effect size lies with specified probability. This interpretation is valid only within a Bayesian framework, under which CIs become credible intervals with uninformative priors. By explicitly using the Bayesian framework, the use of AnCred obviates this interpretative issue."


And on the Internet, you can find more strong claims if you search them with keywords, ""the probability that H0 is true" Bayesian".


The background for the reason why I am asking this question came from some argument on Twitter. A Japanese psychological statistician, Dr. Hideki Toyoda, will publish the following book on March.

"Rescue Dying Statistics!: [Move] from Significance Tests to "Probability that a Hypothesis is True""
Japanese title: 瀕死の統計学を救え! ―有意性検定から「仮説が正しい確率」へ―
[Publisher's page] http://www.asakura.co.jp/books/isbn/978-4-254-12255-8/

Although this book has not been published yet, several persons (let me call them "Akaikians" just for convenience) are against this book, his past books and articles on Twitter. "Akaikians" claim that "Bayesian" posterior probabilities (as well as p-values) are based on a specific model, and we basically don't know the model is correct or not, so first of all, we need to admit that the "Bayesian" posterior probability (as well as the p-value) is just imaginary.
("Akaikians" are also against subjective "Bayesian" perspectives, but let me skip the topic here.)

In your 2016 p-value statement, it's clearly said that p-value is Pr(T >= t| H0 and A) where A is an assumption. But in the statement, there is no reference to "Bayesian" posterior probability, and it doesn't warn that "Bayesian" posterior probability is not Pr(H0| T = t), but Pr(H0|T = t and A ). This my comment may be the same as the following ones in Stark (2016, p.1) and Greenland et al. (2016, p.6), supplement papers for the 2016 p-value statement.

---------------
"The "other approaches" section ignores the fact that the assumptions of some of those methods are identical to those p-values. Indeed, some of the methods use p-values as input (e.g., the False Discovery Rate)." (Stark, 2016, p.1)
-----------------

"It is possible to compute an interval that can be interpreted as having 95 % probability of containing the true value; nonetheless, such computations require not only the assumptions used to compute the confidence interval, but also further assumptions about the size of effects in the model. These further assumptions are summarized in what is called a prior distribution, and the resulting intervals are usually called Bayesian posterior (or credible) intervals to distinguish them from confidence intervals (e.g., see Rothman et al. 2008, Ch. 13 and 18)." (Greenland et al., 2016, p.6)
-----------------

Everyone must agree that <Apples drawn in a picture aren't oranges>. But I think, in order to avoid misleading, we should say that <Apples drawn in a picture aren't oranges drawn in a picture>.


--- [References] ---
Casella, G. and Berger, R.L.(2002: 2nd ed.)

Statistical Inference (2nd ed.)
Brooks/Cole

Good, I. J. (1965)
The Estimation of Probabilities: An Essay on Modern Bayesian Methods MIT Press

Goodman, S. (2008)
A Dirty Dozen: Twelve P-Value Misconceptions Semin Hematol, 45(3), 135-140

Greenland, S., Senn, S.J., Rothman, K.J., Carlin, J.B., Poole, C., Goodman, S.N., and Altman, D.G.(2016) Statistical Tests, P-values, Confidence Intervals, and Power: A Guide to Misinterpretations The American Statistician, 70(2), Online Supplement

Matthews, R. A. J. (2019)
Moving Towards the Post p<0.05 Era via the Analysis of Credibility The American Statistician, 73(sup1), 202-212

Stark, P. B. (2016)
The Value of p-Values
The American Statistician, 70(2), Online Supplement

Wasserstein, R.L. and Lazar, N.A. (2016) The ASA Statement on p-Values: Context, Process, and Purpose The American Statistician, 70(2), 129-133

Best Regards,

-
SAS Institute Japan
JMP Japan Group
Yusuke Ono (Mr.)
--- All opinions in this e-mail are my own. Only I am responsible for all things in this mail.

 

Reply from Prof. Wasserstein

Date: 2020/3/20, Fri 05:26
Subject: RE: Question about p-value statement again: Can Bayesian get Pr(H0|D)?

 

I apologize for the lengthy delay in responding, Yusuke. We have been greatly distracted with other things.

My colleagues and I don't find anything to disagree with in what you have pointed out. We would point add that principle 2 in the 2016 ASA Statement was put there NOT to drive people to Bayesian methods, but simply to point out that this P(H|D) interpretation is a common misconception, and we want people to stop making that error.

We are in complete agreement with you that it would be a shame for people to stop using NHST (which we are not fans of) but then make the same mistakes using Bayesian methods. Two mistakes involving p-values are (1) forgetting about all the other assumptions and (2) using thresholds (like p<0.05) to imbue powers to p-values (such as declaring things "significant) they don't really have. The same types of mistakes can be made using Bayesian methods or, I suppose, any similar framework. We've been criticized for not saying this explicitly in the 2016 ASA Statement, but our focus there was on the pervasive misuse of p-values. We do mention the concern about misusing other statistics in our 2019 editorial (https://amstat.tandfonline.com/doi/full/10.1080/00031305.2019.1583913#.XnPTpW5FxPY ), section 2, sixth paragraph.

I hope this helps, and apologies again for the delay. And I hope you are well!
Ron

 

カイ2乗検定の自由度って,どうして(r-1)×(c-1)になるの?

以下のPDFファイル(35頁,862KB, Google Drive)にて,カイ2乗検定の自由度が,一元表のときはr-1,二元表のときは(r-1)×(c-1)になる理由を考えてみました.

まあ,よく知られたことだとは思いますが...
既存の文献はあまり確認していません...
きっと,もっと短く説明できるのでしょけれども...無駄に長い...
どなたか綺麗な説明をお願いいたします...

The Phrase "Random Chance" for Explaining P-values

In the ASA p-value statement in 2016 (Wasserstein and Lazar, 2016), the following explanation is written in #2.

2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.

 

However, in many cook books for beginners of statistics, I find some other variants of expressions using the phrase "random chance". Because there are so many textbooks using the phrase "random chance", I had been afraid that some expressions might be correct or reasonable. So, I asked the following question to the first author, Ron.

Sorry for this sudden e-mail.

I am Yusuke Ono in Japan. I am not an academic person, but work for a statistical software company.

Although I don't contribute anything to ASA, I am a member of ASA.

 In your p-value statement 2016, you wrote as below.

 "2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone."

I find there are several variants of expressions with "random chance" when people explain p-values.

Do you think that all following expressions are false for expressing or explaining p-values in English?

 

a) P-values measure the probability that the data were produced by random chance.

b) P-values measure the probability that the data were produced by random chance alone under a proposed model.

c) P-values measure the probability that the data were produced by random chance under a proposed model.

d) P-values measure the probability that the test statistic is larger than or equal to the observed value by random chance alone under a proposed model.

e) P-values measure the probability that the test statistic is larger than or equal to the observed value by random chance under a proposed model. 

 

Best Regards,

 

Yusuke Ono

JMP Japan Group

SAS Institute Japan

 

The following is the reply from Ron.

Please call me Ron. Everyone does.

I agree that all those statements are false. I myself would not try to craft a statement about the p-value that involved the words “random chance.” Is it really clear to the ordinary person what those words mean, anyway?

Beyond that, p-values are influenced by many things. Is it clear that all those things are contained in the words “proposed model?” I am not sure that is always well understood or agreed upon.

 Anyway, I wouldn’t be happy with any of the definitions you listed, and I don’t think the panel that wrote the ASA statement would, either.

 Is this answer helpful? I hope so.

 Ron

 

Please don't think the above reply is an easy how-to rule for expressing p-values. How to understand p-values must be much more important than how to express p-values. I hope this information becomes a seed of your thought for understanding p-values.

 

Note: Although Ron allowed me to open the above reply, my query is just an informal one. 

 

[Reference]

Ronald L. Wasserstein & Nicole A. Lazar (2016) The ASA Statement on p-Values: Context, Process, and Purpose, The American Statistician, 70:2, 129-133, DOI:10.1080/00031305.2016.1154108

 

Yusuke Ono

JMP Japan Group

SAS Institute Japan