寺沢拓敬先生が2018年1月にTwitterにて話題に挙げたSEM関係の問題について

以下のような問題をTwitterにて寺沢拓敬先生が話題にされていました.

 

これら2つについて私が頭に浮かんだ理由を以下に述べてみます.はじめに断っておきますがかなり強引です.また,自分にとって都合がいいように質問をかなり変えました.

なお,私自身は初等教科書やハウツー本で統計学を座学しているだけで,(統計学や調査などを含め)学術的な業績・経験は何もありません.

【その1】潜在変数F_X \rightarrow F_Yの影響を調べるときに,F_XF_Yに対する観測変数の個数は同じほうがいいのか?

潜在変数F_XF_Yがあり,F_X \rightarrow F_Yの係数\gammaを推定することが主関心だったとします.条件として,F_X \rightarrow X_iと,F_Y \rightarrow Y_jのすべての係数がすべて同じ値(\beta)だとします(かなり非現実的な想定).そして,観測変数全部の個数(X_iY_jを合わせた個数)はk個と固定されているとします(つまり,質問票でk個の質問しか聞けないものとします).簡単のために,すべての変数(F_X, F_Y, X_i, Y_j)の母分散は1とします.

\gamma=0.8, \beta=0.5, k=10, n=1000で乱数シミュレーションしたところ,\widehat{\gamma}(標準化係数を用いました)のばらつきは,観測変数を5個/5個と等分に分けたとき(X_iが5個,Y_jが5個としたとき)に最小になります.次に\widehat{\gamma}のばらつきが小さいのは,6個/4個(4個/6個)のときです.そして,7個/3個(3個/7個),8個/2個(2個/8個)の順番でばらつきが大きくなっていきます.

おそらく\gamma, \beta, k, nの値によらず,上記のような条件(測定部分の係数がすべて同じ&観測変数の全部の個数が固定されているという条件)のもとでは,このような関係が成立すると予想されます.よって,上記のような条件のもとでは,推定量のばらつきを小さくするという観点だけから考えると,同じ個数に分けたほうが「お得」だと言えます.

しかし,想定した条件は現実的ではありません.また,上記のようなことよりも,測定したいものをきちんと測定しているかどうかの議論(測定の妥当性についての議論)のほうが重要で,「測定したいものによってどのような観測変数を用いるかを決める」という方針が自然だと思います.たとえば,「美術館見学」のような具体的なものは少ない観測変数ですむ一方で,「文化資本」のような抽象的なものはより多くの観測変数が必要だと思われます.

なお,たとえば6個/5個,7個/5個,8個/5個... の観測変数があるのを,同じ個数にするために,5個/5個に減らすのは,上記の基準(\widehat{\gamma}のばらつき)から見ても本末転倒です.ここで私が述べたのは,あくまで,「全部で観測変数の個数が固定されているならば,そして,測定における観測変数への係数がすべて同じならば,X_iY_jを同じ個数にしたほうが,\widehat{\gamma}のばらつきが小さくなるよ」というだけです.

【その2】数値を丸めるとPearson積率相関係数がどういう影響を受けるか?

ここではSEMはとりあえず置いておいて,Pearson積率相関係数がどうなるかを考えます.

元の変数が完全な連続変数であり,これを等間隔に丸めるとします(かなり非現実的な想定).このような状況では,どの程度,丸めるかによって算出されるPearson積率相関係数が異なってきます.

以下のようなRプログラムで確かめたところ,大きく丸めるほど相関係数は小さくなるようです.

r = 0.8;
n = 10000;
x = rnorm(n);
y = r * x + sqrt(1 - r^2) * rnorm(n);
print(cor(x,y));
rx1 = round(x);
ry1 = round(y);
print(cor(rx1, ry1));
rx2 = round(x / 2) * 2;
ry2 = round(y / 2) * 2;
print(cor(rx2, ry2));

今回,初めて私は知ったのですが,どうやら,データを丸めたときには生態学的誤謬(元データをグループごとの平均値に置換したときに生じる現象)とは逆のことが起こるようです.なぜかは知りません.

上記の想定は現実的ではないかもしれません.実際には,選択肢の視覚的な配置やワーディングなどによっては,選択肢1, 2, 3, 4, 5のあいだは等間隔ではないかもしれませんし,真ん中の「3」がニュートラルな点でないかもしれません.また,「(4件法ではなくて)5件法にすると中間の回答が増える」(←出典不明)といった影響も考慮しないといけないかもしれません.

選択肢(および調査方式・質問方法・質問文)をどのように設定するかは,このような話ではなくて,まずは,1つ1つの変数における測定誤差が小さくなるかどうかという観点から,議論すべきだと思います.

なお,「4件法や5件法のときにどのようなモデルを使うべきか? 推定方法として,多変量正規分布を仮定した最尤法を用いてOKか否か?」といった議論は,狩野裕・三浦麻子(2002)『グラフィカル多変量解析 増補版』(現代数学社)のpp.150-154で紹介されています.