TwitterでのNeyman（1934）に対する事実誤認の訂正

Twitterで私が呟いた以下のスレッドが，事実誤認の可能性が非常に高いので訂正いたします．

(1/11) 信頼区間についてまったく理解できていないので，検討外れでしょうけれども…

内容を覚えておらず，いま該当の1文を読んだだけですが，「信頼区間」という言葉の初出とされているNeyman（1934）p.562でも「確率」と形容されています．
— Tarotan (@BluesNoNo) July 16, 2021

まだ誤解している点があるでしょうが，事実誤認の可能性が非常に高いので，このブログ記事にて訂正します．

以下で日本語訳を記していますが，急いで訳したので，誤訳があると予想されます．しかし，大まかなイメージはつかめると思います．

本文でイタリック体のものはボールド体にしています．また，私の方で補足した部分は，角括弧［］で囲んでいます（ただし．原文にある数式で区間を示す角括弧も，そのまま角括弧を用いています）．

上記の一連のつぶやきでは，次のような事実誤認を私はしました．

Neyman（1934）にて信頼係数をNeymanは「確率」と呼んでいたように書きましたが，実際にはNeymanはあえて「確率」とは呼ばす「信頼係数」と呼んでいました．
Neyman（1934）にて用語上の議論がなかったものと思って書いてしまいましたが，実際には用語上の議論（「信頼係数」か「フィデューシアル確率」か）もありました．

Neyman（1934, p.623）において，Neymanは「信頼係数」と「確率」は同義ではないと述べたと記録されています．

一方，Fisherは，「フィデューシャル確率」は確率なのだから「係数」と呼ばず「確率」と呼んだ，と返答したと記録されています（Neyman 1934, p.617）．

このように，Neyman（1934）で記録されている発表にて，信頼係数を「確率」と呼ぶか，「係数」と呼ぶの議論がありました．

以下，該当すると思われる部分を引用いたします．

Neyman（1934）での信頼係数の説明

まず，Neyman（1934, p.562）には，次のように述べられています．

拙訳「この解決の型は，ある種の区間を決めることで構成される．その型を，私は信頼区間と呼ぶことを提案する（付録 I を参照）．信頼区間では，推定される母集団特性値が含まれると言明することの誤りの確率が， $\epsilon$ 以下になると仮定する．ここで， $\epsilon$ は，0 < $\epsilon$ < 1 である任意の値であり，前もって決められる．この数値 εを，私は信頼係数と呼ぶ．」（Neyman 1934, p.562）

この文章では「誤りの確率が， $\epsilon$ 以下になる」と述べられているだけであり， $\epsilon$ や $1-\epsilon$ を「確率」とは呼んでいません．さらに，この $\epsilon$ の値は，「前もって選択される任意の値」と述べられています．この文章はTwitterにて引用した部分ですが，私は誤読していました．この文章だけでも，信頼係数は，分析者によって予め定められる基準値であり，確率そのものとは違うとNeymanが述べていると読めます．

さらに，Neyman（1934, pp.589-590）では，次のように述べています．

拙訳「 $\epsilon$ の値を，この値はまったく任意に選ばれるものであるが，「信頼係数」と呼ぶことを私は提案する．もし， $\epsilon$ として例えば0.99を選び，全てのありうる $x$ に対して[先ほどに]定義した特性を持つような区間 $[\theta_1(x), \theta_2(x)]$ を見つけたならば， $\theta_1(x)$ と $\theta_2(x)$ の間に $\theta$ が含まれるという申し立てに対して99%の信頼があるということによって，その立場を大まかに述べることができるだろう． $\theta_1(x)$ と $\theta_2(x)$ の数値は，R.A. Fisherが $\theta$ のフィデューシャル限界と呼んだものである．「フィデューシャル」という言葉は，「フィデューシャル確率」の考えと関連づけられているが，その「フィデューシャル確率」という用語は，すでに言及したように誤解を引き起こした．また，「フィデューシャル確率」という用語は，実際に，通常の確率概念と区別できない．私は，その用語を使うのを避け，区間 $[\theta_1(x), \theta_2(x)]$ を，信頼係数 $\epsilon$ に対応した信頼区間と呼ぶことを選ぶ．」(Neyman 1934, pp.589-590)

このように，意図的に，「確率」や「フィデューシャル確率」という用語を避け，あえて「信頼係数」という用語を用いた理由が述べられています．

このNeymanの発表に対して，Fisherは次のように返答したと記録されています（Neyman 1934, p.617）．

拙訳「この研究の注目すべき点は，それはNeyman博士の論文を素晴らしい研究の例にならしめているものであるが，Fisher博士がフィデューシャル確率と呼んでいたものを演繹した点である．Neyman博士は，この用語を使わず，この用語が誤解されていると述べている．彼は代わりに「信頼係数」という用語を用いた．フィデューシャル確率という言葉があらゆる誤解を生じさせていると思っている点でNeyman博士が誤解していると，Fisher博士は思った．しかし，彼［Fisher博士］は，該当の論文［おそらくFisherの1930年論文］には，そのような兆候は見つけられなかった．Neyman博士が述べた「それ［フィデューシャル確率という言葉］は，実際に，通常の確率概念と区別できない」という点に，Fisher博士は同意した．そして，そのことは，係数ではなく確率とそれを呼んだことの理由のように彼［Fisher博士］は思えた．彼［Fisher博士］は，それがフィデューシャルな推論によって推測される確率であることを示すために，最初から，フィデューシャルという言葉で修飾した．Neyman博士は，それを信頼という言葉で修飾した．どうやら間違いなく，それらの意味は同じである．彼［Fisher博士］は confidence（信頼）を形容詞として用いることを否定するのを希望しない．Bowley教授が気づかせてくれたように，「confidence trick」（信用詐欺）という言葉で，人々はそれをよく知っている．それでも，フィデューシャルの方が，純粋に形式的な理由から，より良い形容詞であろう．」（Neyman 1934, p.617）

このように，Fisherは信頼係数（フィデューシャル）は，それは確率なのだから，「係数」ではなく「確率」と呼んだので問題がないことを主張しています．

そして，Neymanは次のように返答したと記載されています（Neyman, p.623）．

拙訳「議論の中で，「フィデューシャル確率」という用語の代わりに「信頼係数」という用語を用いたと仄めかされた．これは，明らかに誤解である．信頼係数という用語は，確率という用語と同義ではない．それ［信頼係数］は，ある特定の行動規則を適用した時に正しくなる確率に対して，任意に選択された値である．信頼係数概念と確率概念との関係は，（もしも，「価格」は，ある商人によって固定されたお金の特定の量であるという定義を受け入れるならば）「価格」概念と「お金」概念の関係に似ている．おそらく，より良い喩えは，「利率」と「お金」という言葉であろう．この類比は，人々が予想するよりも，表面的なものではない．銀行は，ある特定の利率で運用している．それはやや長期に渡り一定に固定されている．この一定性によって，「利率」という用語が導入された．この論文で述べた推定問題の新しい型における確率的言明の妥当性は，信頼区間のシステムを永続的に用いることに依存している．（ここの区間ではなく）全体としてこのシステムは，我々の予想が正しいという固定された確率に対応する．その確率のこの値を示すのに，特別な用語を与えることには，明確な利点が確実にある．それは［信頼係数という用語を与えること］は，例えば，ある種子検査場は信頼係数0.95で運営されているなどの有用な表現をもたらしてくれる．」（Neyman, p.623）

この文章からも，Neymanが「フィデューシャル確率」ではなく，「信頼係数」という用語をかなり意図的に導入したことが分かります．これらの喩えから想像すると，「信頼係数」という用語を導入することにより，＜ある程度の長期間にわたり固定された基準値＞という側面を強調したかったのだと思われます．

ある道路を走っている自動車の速度で喩えるならば，「確率」は実際に走っている自動車の速度であり，「信頼係数」は各道路の制限速度，ということだと思います．制限速度が50km/hでどの自動車もその制限速度を必ず守れば，そこで走っている自動車は50km/hになります．

＜「信頼係数」0.95を長期間，研究者が守っていれば，その手続きで得られる判断が誤る「確率」は0.95（もしくは0.95以下）になる＞という関係が，「信頼係数」と「（誤りの）確率」の関係だと思われます．

Neyman（1934）の区別に沿った現代数理統計学の教科書における説明

現代数理統計学でも，例えば，少なくとも以下の2つの教科書では，「信頼係数」と「誤りの確率」は分けて定義されていると思われます．

Casella and Berger（2002:2nd ed., p.418）では，確率信頼区間が真のパラメータを含む確率を被覆確率（coverage probability），パラメータθに関する被覆確率の下限を信頼係数と定義しています．

久保川（2017, p168）では，両者を「カバレージ確率」と「信頼係数」と別々に定義しています．

信頼区間にまつわる他の議論

Twitterでの一連の呟きでも述べましたが，Fisherのフィデューシャル限界と，Neymanの信頼区間での解釈上の違いとしては，観測信頼区間（信頼区間の確率変数を実現値に置換したもの）に対する解釈だと思われます．これについては，機会と時間があれば，別のブログ記事でまとめたいと思っています．

引用文献

Neyman, J. (1934) On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Journal of the Royal Statistical Society, 97(4), 558-625.

参考文献

久保川達也（2017）『現代数理統計学の基礎』（共立出版）

Casella, G. And Berger, R. L. (2002) Statistical Inference, 2nd ed., Books/Cole, Cengage Learning