<95%信頼区間の「95%」は確率ではない>と主張するとしたら,どのような理由があるか考えてみました

このブログでは,TJOさんによる以下の記事を踏まえて,<95%信頼区間の「95%」は確率ではない>と主張するとしたら,どのような理由が挙げられるかをちょっとだけ考えてみました.

95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ

 

<95%信頼区間の「95%」は確率ではない>と主張するとしたら考えられる理由として,次の3つを挙げます.

  1. その「95%」は,「確率」ではなくて,「確率の下限」だ
  2. 実現信頼区間にパラメータが含まれる確率は,95%ではなくて,0%か100%だ.だから,わざわざ「信頼係数」と呼ぶのだ.
  3. 「95%」は確率ではなくて,「チャンス」や「傾向(propensity)」と言われているものだ.

1. その「95%」は,「確率」ではなくて,「確率の下限」だ.

たとえば手元にある久保川達也(2017)『現代数理統計学の基礎』p. 169によると,信頼係数 1 - \alphaの信頼区間 [L({\bf X}), U({\bf X})]は,任意のパラメータ \thetaに対して,

 P_\theta(\theta \in [L({\bf X}), U({\bf X})]) \ge 1 - \alpha

を満たすものと定義されています.不等号の左辺は,カバレージ確率と呼ばれています.左辺は確率ですが,右辺はその確率の下限です.喩えるならば,左辺が道路を走っている自動車の速度だとすると,右辺は法定速度です(法定速度は下限ではなく,上限を設定することが多いですが).

この定義だと,例えば,信頼区間 [-\infty, +\infty ]とすれば,カバレージ確率が100%となり,この無意味なものも「95%信頼区間」となってしまいます.そのため,世の中では,カバレージ確率がピッタリ95%となるように信頼区間を構築するよう努力することが多いです.そして,ごく簡単なものであれば,ピッタリ95%になるものは存在します.しかし,ごく簡単なものでも,二項分布・超幾何分布・Poisson分布などの離散型確率分布では,カバレージ確率をピッタリ95%とすることが(確率化を行わない限り)できません.よって,ごく簡単な場合でも特に扱っている確率分布が離散型確率分布の場合には,「いやいや,確率じゃなくて,確率の下限ですよね」という主張は説得力があるのではないでしょうか.

なお,離散型確率分布の場合に,カバレージ確率をピッタリ95%にできないことは,FisherもNeymanも十分に知っていたと思われます(そのため,Fisherのfiducial limits論文では,連続型確率変数であることを断っていました.また,Neymanも,ほぼ最初から上記のようなカバレージ確率に対する不等式で信頼区間を定義していました).

なお,世の中では場合によっては,近似が使われる場合もあります.その場合は,「確率そのものじゃなくて,確率を近似したものですよ」と断る必要があるかもしれません.

 

2. 実現信頼区間にパラメータが含まれる確率は,95%ではなくて,0%か100%だ.だから,わざわざ「信頼係数」と呼ぶのだ.

Casella and Berger(2002) Statistical Inference:2nd ed. p.435 に倣って,ここでは信頼区間のうち, [L({\bf X}), U({\bf X})]と上下限が確率変数であるものを確率信頼区間(random interval),それに {\bf X}の実現値 {\bf x}を代入した [L({\bf x}), U({\bf x})]を実現信頼区間(realized interval)と呼ぶことにします.

話を簡単にするため,この節では P_\theta(\theta \in [L({\bf X}), U({\bf X})]) = 1 - \alpha と,信頼係数がカバレッジ確率にピッタリ一致しているとします.

Neyman流信頼区間では,パラメータは固定された定数とみなします.その場合,実現信頼区間のカバレージ確率  P_\theta(\theta \in [L({\bf x}), U({\bf x})])は,95%ではありません.0%か,100%かのいずれかになります.

喩えとして,竹村彰通(2020)『新装改定版 現代数理統計学』学術図書出版のp.207で述べられている話を取り上げます.公平なコインを投げるとします.コインを投げる前は,コインが表となる確率は50%です.一方,コインを投げた後は,それを手で覆い隠していたとしても,コインは表であるか裏であるかのいずれかなので,コインが表である確率は0%か100%です.

実現信頼区間のカバレージ確率  P_\theta(\theta \in [L({\bf x}), U({\bf x})])は,0%か100%であり,95%ではないので,この95%を「確率」と呼ぶと,何かと誤解を招きそうです.誤解を避けるために,この95%を「信頼係数」という特別な名前で呼ぶという工夫は説得力があるのではないでしょうか.

なお,実現信頼区間に対する以上の解釈はNeymanによるものです.Fisherは,ある条件のもとで(例えば,連続型確率分布で,単一パラメータで,単調尤度である場合), \thetaに対する確率的言明が行えるとして(少なくとも形式的にはパラメータに対して累積分布関数を定義できるとして),実現区間における95%にさえも「確率」という呼び名を与えています.Neymanの考えに従えば,このようなFisherの考えは到底,納得できないでしょう.

竹村(2020)では,前述の話の続きとして,コインを投げた後でも,手で覆ってコインが表が出たか裏が出たかが分からなければ,それは依然としてコインが表である確率は50%と考えることもできるかもしれない,という喩えがあるのですが,これはおそらくFisherの考えだと思われます.

 

3. 「95%」は確率ではなくて,「チャンス」や「傾向(propensity)」と言われているものだ.

現在においては,教科書的には,いくつかの数理的な性質を持つ関数を「確率」と呼ぶことが多いと思います.

しかし,いざ,実用の出来事に「確率」を使おうとすると,その公理的な「確率」を世俗的に解釈する必要が出てきます.現在の世の中には,まったく別に解釈しているのに,公理的確率の数理的性質は満たしているものがいくつか(沢山?)あります.

現在においては,公理的確率という揺るぎない合意があるので,好き勝手に確率を人々は解釈できるのだと私は思います(公理的確率の公理さえ満たされていれば,いろんなものが「確率」になれる).なお,Ian Hackingは,『確率の誕生』にて,1650年頃の"確率の誕生時"から偶発的確率と認識論的確率の2つの解釈が同時に存在していたと主張しています(Ian Hackingのその主張に対しては強い批判がいくつかされています).

話が逸れました.理由がなんであれ,実用上では,世の中には,確率に対して複数の解釈があります.そのなかでも代表的な2つは,「信念の度合い」を示すSavage流の主観的確率と,「無限の繰り返し無作為抽出での割合」を示すNeyman流の頻度的確率だと思います.

両者とも「確率」と呼ばれているのですが,これらを区別して呼ぼうという提案も度々されてきたようです.例えば,ポアソンとクールーノーは,認識論的確率を「確率」,偶発的確率を「チャンス」と呼ぶように提案したそうです(イアン・ハッキンング 広田すみれ・森元良太訳『確率の出現』翻訳書p.20).また,Lindley & Phillips (1976). The American Statistician, 30(3), 112-119 では,主観的確率を「確率」,頻度的確率を「傾向(propensity)」と呼んで区別しようとしています.

 

さて,久保川本などに出ている信頼区間の左辺は,おそらくは公理的な確率であり,それが頻度的確率であるか,主観的確率であるかは拘っていません.しかし,「信頼区間」という名付け親であるNeymanは,頻度的な解釈に拘りました.つまり,「同一母集団から無限に無作為抽出して,その1回1回で95%信頼区間を計算した時に,その信頼区間に固定されたパラメータが含まれる頻度的確率が95%以上だ」という解釈にNeymanは拘りました.

現在,信頼区間の解釈としてもっぱら流布している解釈はNeyman流です.よって,主観的確率と頻度的確率の区別が重要だと思っており,「確率」を主観的確率という意味でもっぱら用いている人々の間では,95%信頼区間の95%には「確率」とは違う名前を与えた方がいいのかもしれません.

 

なお,上記では,個人的確率と頻度的確率だけを対比させましたが,Kass (2011). Statistical Science, 26(1), 1-9などでは,いずれの流派であっても,想定した理論的世界での確率計算であることを強調した方がいいという主張もあります.