寺沢拓敬先生が2018年1月にTwitterにて話題に挙げたSEM関係の問題について

以下のような問題をTwitterにて寺沢拓敬先生が話題にされていました．

【その２】「観測変数が４件法のものと５件法のものが混在している。この影響について説明せよ」（大意）。

→これについても、私自身、４件法／５件法の混在による悪影響という話を聞いたことがありません。そういう場合もあるのでしょうか？
— Takunori TERASAWA (@tera_sawa) 2018年1月9日

これら2つについて私が頭に浮かんだ理由を以下に述べてみます．はじめに断っておきますがかなり強引です．また，自分にとって都合がいいように質問をかなり変えました．

なお，私自身は初等教科書やハウツー本で統計学を座学しているだけで，（統計学や調査などを含め）学術的な業績・経験は何もありません．

【その1】潜在変数 $F_X \rightarrow F_Y$ の影響を調べるときに， $F_X$ と $F_Y$ に対する観測変数の個数は同じほうがいいのか？

潜在変数 $F_X$ と $F_Y$ があり， $F_X \rightarrow F_Y$ の係数 $\gamma$ を推定することが主関心だったとします．条件として， $F_X \rightarrow X_i$ と， $F_Y \rightarrow Y_j$ のすべての係数がすべて同じ値（ $\beta$ ）だとします（かなり非現実的な想定）．そして，観測変数全部の個数（ $X_i$ と $Y_j$ を合わせた個数）は $k$ 個と固定されているとします（つまり，質問票で $k$ 個の質問しか聞けないものとします）．簡単のために，すべての変数（ $F_X, F_Y, X_i, Y_j$ ）の母分散は１とします．

$\gamma=0.8, \beta=0.5, k=10, n=1000$ で乱数シミュレーションしたところ， $\widehat{\gamma}$ （標準化係数を用いました）のばらつきは，観測変数を5個/5個と等分に分けたとき（ $X_i$ が5個， $Y_j$ が5個としたとき）に最小になります．次に $\widehat{\gamma}$ のばらつきが小さいのは，6個/4個（4個/6個）のときです．そして，7個/3個（3個/7個），8個/2個（2個/8個）の順番でばらつきが大きくなっていきます．

おそらく $\gamma, \beta, k, n$ の値によらず，上記のような条件（測定部分の係数がすべて同じ＆観測変数の全部の個数が固定されているという条件）のもとでは，このような関係が成立すると予想されます．よって，上記のような条件のもとでは，推定量のばらつきを小さくするという観点だけから考えると，同じ個数に分けたほうが「お得」だと言えます．

しかし，想定した条件は現実的ではありません．また，上記のようなことよりも，測定したいものをきちんと測定しているかどうかの議論（測定の妥当性についての議論）のほうが重要で，「測定したいものによってどのような観測変数を用いるかを決める」という方針が自然だと思います．たとえば，「美術館見学」のような具体的なものは少ない観測変数ですむ一方で，「文化資本」のような抽象的なものはより多くの観測変数が必要だと思われます．

なお，たとえば6個/5個，7個/5個，8個/5個... の観測変数があるのを，同じ個数にするために，5個/5個に減らすのは，上記の基準（ $\widehat{\gamma}$ のばらつき）から見ても本末転倒です．ここで私が述べたのは，あくまで，「全部で観測変数の個数が固定されているならば，そして，測定における観測変数への係数がすべて同じならば， $X_i$ と $Y_j$ を同じ個数にしたほうが， $\widehat{\gamma}$ のばらつきが小さくなるよ」というだけです．

【その２】数値を丸めるとPearson積率相関係数がどういう影響を受けるか？

ここではSEMはとりあえず置いておいて，Pearson積率相関係数がどうなるかを考えます．

元の変数が完全な連続変数であり，これを等間隔に丸めるとします（かなり非現実的な想定）．このような状況では，どの程度，丸めるかによって算出されるPearson積率相関係数が異なってきます．

以下のようなRプログラムで確かめたところ，大きく丸めるほど相関係数は小さくなるようです．

r = 0.8;
n = 10000;
x = rnorm(n);
y = r * x + sqrt(1 - r^2) * rnorm(n);
print(cor(x,y));
rx1 = round(x);
ry1 = round(y);
print(cor(rx1, ry1));
rx2 = round(x / 2) * 2;
ry2 = round(y / 2) * 2;
print(cor(rx2, ry2));

今回，初めて私は知ったのですが，どうやら，データを丸めたときには生態学的誤謬（元データをグループごとの平均値に置換したときに生じる現象）とは逆のことが起こるようです．なぜかは知りません．

上記の想定は現実的ではないかもしれません．実際には，選択肢の視覚的な配置やワーディングなどによっては，選択肢1, 2, 3, 4, 5のあいだは等間隔ではないかもしれませんし，真ん中の「3」がニュートラルな点でないかもしれません．また，「(4件法ではなくて）5件法にすると中間の回答が増える」（←出典不明）といった影響も考慮しないといけないかもしれません．

選択肢（および調査方式・質問方法・質問文）をどのように設定するかは，このような話ではなくて，まずは，1つ1つの変数における測定誤差が小さくなるかどうかという観点から，議論すべきだと思います．

なお，「4件法や5件法のときにどのようなモデルを使うべきか？　推定方法として，多変量正規分布を仮定した最尤法を用いてOKか否か？」といった議論は，狩野裕・三浦麻子（2002）『グラフィカル多変量解析　増補版』（現代数学社）のpp.150-154で紹介されています．

【その1】潜在変数の影響を調べるときに，とに対する観測変数の個数は同じほうがいいのか？

【その２】数値を丸めるとPearson積率相関係数がどういう影響を受けるか？

【その1】潜在変数 $F_X \rightarrow F_Y$ の影響を調べるときに， $F_X$ と $F_Y$ に対する観測変数の個数は同じほうがいいのか？