メモ：分割表のPearsonカイ2乗検定が行和も列和も固定して導出されている件について〜 2つの独立な二項分布を例にして〜

このブログ記事では，2つの独立な二項分布を例にして， $2 \times 2$ 分割表に対する $\chi^2$ 統計量が，行和および列和の両方を固定した上で導出されていることを説明します．ここでは，次の3つの導出を紹介します．

多変量正規分布で近似して，多変量正規分布の条件付き分布から導出する．
超幾何分布を正規近似することで導出する．
スコア検定（ラグランジュ乗数検定）から導出する．

記号

$Y_1$ と $Y_2$ が，それぞれ，独立な以下の二項分布に従っているとします．
$Y_1 \sim Bin(n_1, \pi_0)$
$Y_2 \sim Bin(n_2, \pi_0)$
ここで2つの二項分布の確率パラメータ $\pi_0$ は共通です．この確率パラメータ $\pi_0$ は未知であるとします．
$Y_1$ と $Y_2$ の和を $T$ とします（ $T = Y_1 + Y_2$ )． $T$ の実現値を小文字の $t$ と表します．

このモデルにおいては，「このモデルから観測を無作為抽出したら，抽出ごとに値がコロコロと変わりうる」という意味で， $T = Y_1 +Y_2$ は固定されていません．

多変量正規分布で近似して，多変量正規分布の条件付き分布から導出する

$T = t$ と固定した上での $(Y_1, Y_2)$ の条件付き分布を考えます．
まず， $T = Y_1 + Y_2 = t$ と固定すると， $Y_2 = t - Y_1$ ですので， $Y_2$ は $Y_1$ から一意に定まります．よって， $(Y_1,Y_2)$ の二変量ではなく， $Y_1$ だけの一変量分布を考えてもいいです．そこで， $T = t$ と固定した時の $Y_1$ の分布を考えることにします．

$(Y1, T)$ の平均ベクトルと共分散行列は以下の通りです．
$E\left[ \left( \begin{array}{c} Y_1 \\ T \end{array}\right)\right] = \left( \begin{array}{c} n_1\pi_0 \\ (n_1+n_2)\pi_0 \end{array} \right)$

$V\left[ \left( \begin{array}{c} Y_1 \\ T \end{array}\right)\right] = \left( \begin{array}{cc} n_1\pi_0(1-\pi_0) & n_1\pi_0(1-\pi_0) \\ n_1\pi_0(1-\pi_0) & (n_1+n_2)\pi_0(1-\pi_0) \end{array} \right)$

ここで， $(Y_1, T)$ が多変量正規分布で近似できるとします．この正規近似のもとで， $T=t$ と条件付けたもとでの $Y_1$ の条件付き分布は，以下の平均と分散である正規分布となります（多変量正規分布の条件付き分布については，例えば，竹村（2020:新装改訂版, p.60）の式(3.78)などを参照のこと）．

$E\left[Y_1 | T = t\right] = n_1 \pi_0 + \frac{n_1\pi_0(1-\pi_0)}{(n_1+n_2)\pi_0(1-\pi_0)} (t - (n_1+n_2) \pi_0 ) = n_1 \frac{t}{n_1 + n_2}$
$V\left[Y_1 | T = t\right] = n_1 \pi_0 (1-\pi_0) - \frac{(n_1\pi_0(1-\pi_0))^2}{(n_1+n_2)\pi_0(1-\pi_0)} = \frac{n_1 n_2 \pi_0 (1 - \pi_0)}{(n_1 + n_2)}$

（条件付き平均 $E\left[Y_1 | T = t\right]$ において，未知パラメータ $\pi_0$ が含まれていません．条件付けることにより，未知パラメータ $\pi_0$ を消去できています．）

この条件付き分布と照らし合わせて， $Y_1$ がモデルからどれぐらい離れているかを測定するために，次のような指標を使いましょう．
$\chi^2 = \frac{(Y_1 - E[Y_1|T=t])^2}{V[Y_1|T=t]} = \frac{(Y_1 - n_1 \frac{t}{n_1 + n_2})^2}{\frac{n_1 n_2 \pi_0 (1 - \pi_0)}{(n_1 + n_2)}}$

地道に計算すると，以下のように変形できます．
$\chi^2 = \frac{(Y_1(n_2 - Y_2) - (n_1 - Y_1)Y_2)^2} {(n_1+n_2) n_1 n_2 \pi_0 (1-\pi_0)}$

$\pi_0$ は未知なので， $\pi_0 = t/(n_1+n_2)$ という推定値に置き換えるとします．そうすると，
$\chi^2 = \frac{(n_1+n_2)(Y_1(n_2 - Y_2) - (n_1 - Y_1)Y_2)^2} { n_1 n_2 t (n_1 + n_2 - t)}$
となります．これは， $2 \times 2$ 表に対するPearsonの $\chi^2$ 検定統計量です（たとえば，Agresti (2013:3rd ed.) p.125などを参照のこと）．

超幾何分布を正規近似することで導出する

$T = t$ で条件付けたときの $Y_1$ の分布は，超幾何分布に従います．竹村（2020:新装改定版, p.88）の(4.63)式などによると，超幾何分布の平均と分散は次の通りです．

$E\left[Y_1 | T = t\right] = n_1 \frac{t}{n_1 + n_2}$
$V\left[Y_1 | T = t\right] = \frac{n_1+n_2}{n_1+n_2-1} \frac{1}{n_1 + n_2} n_1 n_2\frac{t}{n_1+n_2}\frac{n_1+n_2-t}{n_1+n_2}$

平均は前節で求めた平均と同じです．分散は，前節で求めた分散推定値に $\frac{n_1+n_2}{n_1+n_2-1}$ をかけたものとなっています．
（前節における分散推定値を， $n_1+n_2$ の代わりに， $n_1+n_2-1$ で割ったものにすれば，今回の分散となります．）

このような平均と分散の超幾何分布に従う確率変数 $Y_1| T=t$ を正規近似することにして，前節と同じように，モデルからのデータのズレを測定する指標を考えると，
$\chi_{hyp}^2 = \frac{n_1 + n_2 - 1}{n_1+n_2} \chi^2$
という指標が導出できます．

スコア検定（ラグランジュ乗数検定）から導出する

次のような枠組みでスコア検定（ラグランジュ乗数検定）を考えます．

まず，制約なしのモデルとして，
$Y_1 \sim Bin(n_1 , \pi_1)$
$Y_2 \sim Bin(n_2 , \pi_2)$
という2つの独立な二項分布に $Y_1, Y_2$ が従っているとします．
そして， $H_0: \pi_1 = \pi_2$ という制約のもとで，この二項分布の対数尤度をラグランジュ乗数法で最大化するとします．
$\pi_1 = \pi_2$ という制約を， $\log{\left(\frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2}\right)=0}$ と変形すると，ラグランジュ関数 $f(\pi_1, \pi_2, \lambda)$ は，

$\begin{array}{lll} f(\pi_1, \pi_2, \lambda) & = & c + y_1 \log(\pi_1) + (n_1 - y_1)\log(1-\pi_1)\\ & & + y_2 \log(\pi_2) + (n_2 - y_2)\log(1-\pi_2) \\ & & - \lambda (\log{\left(\frac{\pi_1/(1-\pi_1)}{\pi_2/(1-\pi_2}\right)}-0) \end{array}$

となります．この偏微分したものをゼロと置くと，
$\widehat{\pi}_1 = \frac{y_1 - \lambda}{n_1}$
$\widehat{\pi}_2 = \frac{y_2 + \lambda}{n_2}$
となります． $(y_1 - \lambda) + (y_2 + \lambda) = y_1 + y_2$ と $\lambda$ によらず一定なので，求めたい最尤推定値は， $n_1 \widehat{\pi}_1 + n_2 \widehat{\pi}_2 = y_1 + y_2$ という直線と， $\widehat{\pi}_1 = \widehat{\pi}_2$ という直線との交点になります．

スコア検定そのものには，「周辺和を固定する」という条件は直接的には含まれていません．しかし，「 $\widehat{\pi}_1 = \widehat{\pi}_2$ 」という制約を課したモデルのうちデータに最も近いものを探した場合，このモデルのもとでは結果として周辺和を固定しているとみなせるでしょう．

イメージ図

2つの独立な二項分布に従う確率変数 $(Y_1, Y_2)$ は二変量なので，自由度は2です．しかし， $Y_1 + Y_2 = t$ という条件を課すことにより，自由度が1つ減って， $\chi^2$ 統計量の自由度1となります．これのイメージを描いたのが，下記の図となります．この図において，横軸は $\pi_1$ の推定値，縦軸は $\pi_2$ の推定値となっています．等分散とするために，横軸は $\sqrt{\frac{n_1}{\pi_0(1-\pi_0)}}$ 倍，縦軸は $\sqrt{\frac{n_2}{\pi_0(1-\pi_0)}}$ 倍しています．

真の確率パラメータが $(\pi_0, \pi_0)$ だとすると， $(\pi_0, \pi_0)$ から $(Y_1/n_1, Y_2/n_2)$ までの距離の2乗は，自由度2の $\chi^2$ 分布に従います．
しかし， $((Y_1+Y_2)/(n_1+n_2), (Y_1+Y_2)/(n_1+n_2)))$ から $(Y_1/n_1, Y_2/n_2)$ までの距離の2乗は，自由度が1つ減った，自由度1の $\chi^2$ 分布に従います．
$((Y_1+Y_2)/(n_1+n_2), (Y_1+Y_2)/(n_1+n_2)))$ と $(Y_1/n_1, Y_2/n_2)$ を通る直線は， $(0,0)$ と $(1,1)$ を通る直線と直角になっており，また， $n_1 \hat{\pi}_1 + n_2\hat{\pi}_2 = t$ という制約を表す直線となっています．

参考文献

Agresti, A. (2013:3rd ed.) Categorical Data Analysis: 3rd ed., A John Wiley & Sons
竹村明通（2020: 新装改定版）『新装改定版現代数理統計学』学術図書