このブログ記事では,2つの独立な二項分布を例にして,分割表に対する統計量が,行和および列和の両方を固定した上で導出されていることを説明します.ここでは,次の3つの導出を紹介します.
記号
とが,それぞれ,独立な以下の二項分布に従っているとします.
ここで2つの二項分布の確率パラメータは共通です.この確率パラメータは未知であるとします.
と の和をとします().の実現値を小文字のと表します.
このモデルにおいては,「このモデルから観測を無作為抽出したら,抽出ごとに値がコロコロと変わりうる」という意味で,は固定されていません.
多変量正規分布で近似して,多変量正規分布の条件付き分布から導出する
と固定した上でのの条件付き分布を考えます.
まず,と固定すると,ですので,はから一意に定まります.よって,の二変量ではなく,だけの一変量分布を考えてもいいです.そこで,と固定した時のの分布を考えることにします.
の平均ベクトルと共分散行列は以下の通りです.
ここで,が多変量正規分布で近似できるとします.この正規近似のもとで,と条件付けたもとでのの条件付き分布は,以下の平均と分散である正規分布となります(多変量正規分布の条件付き分布については,例えば,竹村(2020:新装改訂版, p.60)の式(3.78)などを参照のこと).
(条件付き平均において,未知パラメータが含まれていません.条件付けることにより,未知パラメータを消去できています.)
この条件付き分布と照らし合わせて,がモデルからどれぐらい離れているかを測定するために,次のような指標を使いましょう.
地道に計算すると,以下のように変形できます.
は未知なので,という推定値に置き換えるとします.そうすると,
となります.これは,表に対するPearsonの検定統計量です(たとえば,Agresti (2013:3rd ed.) p.125などを参照のこと).
超幾何分布を正規近似することで導出する
で条件付けたときのの分布は,超幾何分布に従います.竹村(2020:新装改定版, p.88)の(4.63)式などによると,超幾何分布の平均と分散は次の通りです.
平均は前節で求めた平均と同じです.分散は,前節で求めた分散推定値に をかけたものとなっています.
(前節における分散推定値を,の代わりに,で割ったものにすれば,今回の分散となります.)
このような平均と分散の超幾何分布に従う確率変数を正規近似することにして,前節と同じように,モデルからのデータのズレを測定する指標を考えると,
という指標が導出できます.
スコア検定(ラグランジュ乗数検定)から導出する
次のような枠組みでスコア検定(ラグランジュ乗数検定)を考えます.
まず,制約なしのモデルとして,
という2つの独立な二項分布にが従っているとします.
そして,という制約のもとで,この二項分布の対数尤度をラグランジュ乗数法で最大化するとします.
という制約を,と変形すると,ラグランジュ関数は,
となります.この偏微分したものをゼロと置くと,
となります.とによらず一定なので,求めたい最尤推定値は,という直線と,という直線との交点になります.
スコア検定そのものには,「周辺和を固定する」という条件は直接的には含まれていません.しかし,「 」という制約を課したモデルのうちデータに最も近いものを探した場合,このモデルのもとでは結果として周辺和を固定しているとみなせるでしょう.
イメージ図
2つの独立な二項分布に従う確率変数は二変量なので,自由度は2です.しかし, という条件を課すことにより,自由度が1つ減って,統計量の自由度1となります.これのイメージを描いたのが,下記の図となります.この図において,横軸はの推定値,縦軸はの推定値となっています.等分散とするために,横軸は倍,縦軸は倍しています.
真の確率パラメータがだとすると,からまでの距離の2乗は,自由度2の分布に従います.
しかし,からまでの距離の2乗は,自由度が1つ減った,自由度1の分布に従います.
とを通る直線は,とを通る直線と直角になっており,また,という制約を表す直線となっています.
参考文献
Agresti, A. (2013:3rd ed.) Categorical Data Analysis: 3rd ed., A John Wiley & Sons
竹村明通(2020: 新装改定版)『新装改定版 現代数理統計学』学術図書