『多重対応分析』(オーム社)での「雲」という訳語について

小野裕亮・大隅昇 (20211213日)

 

はじめに

翻訳書『多重対応分析』(オーム社)での「雲」という訳語について,Twitterにおいて相澤真一先生から以下のようなコメントをいただきました.

 

このブログ記事では,”cloud”に対する訳語を本翻訳書で「雲」としたことに対して、簡単に説明いたします.

 

本書では,多重対応分析を幾何学的な観点から解釈しています.その枠組みのなかで,”nuage”cloud)は,<ユークリッド空間上に散らばっている,重み(質量)をもつ点の集合>を指します.この意味を「雲」以外の短い語句で的確に表記することには無理があると考え,「雲」と訳しました.

 

なお,本翻訳書では,短い注なのですが,同訳書p. 17における訳注7で、日本語訳を「雲」にすると断っています.また,pp.178-179の用語集の項目「点雲」でも補足説明をしています.

 

幾何学的データ解析における“cloud”の意味

対応分析における”cloud”の定義は,たとえば、Benzecri, J. P. (1992) Correspondence Analysis Handbook, Marcel Dekker, p.172.1.3および2.1.4に次のように記されています.2.1.3および2.1.4ともに対応分析に限定した説明であり,2.1.3は行の雲を,2.1.4は列の雲を説明しています.

2.1.3 The cloud   N(I)

... the set of the profiles of the various rows   i, each assigned the mass of the row which it represents, constitutes the cloud   N(I) which is written:   N(I) =\{(f_J^i, f_i) | i \in I\}

 

2.1.4 The cloud   N(J)

...: all the pairs (profile of column, mass of this column) thus formed constitute the cloud   N(J): N(J) =\{(f_I^j, f_j) | j \in J\}

ここで, f_J^iは行  i の行プロファイル, f_iは行  iの質量(重み)です.また,f_I^jは列  jの行プロファイル, f_jは列 jの質量(重み)です.

 

また,ユークリッド空間上の雲についてですが,Benzécri, J.P. and Benzécri, F. (1985) Introduction à la classification ascendante hiérarchique d’après un exemple de données économiques. Journal de la société statistique de Paris, 126(1). 14-34p.28におけるHuyghensの定理に関する説明において次のような簡単な断り書きがあります. 

Théorème de Huyghens : soit c un ensemble de points munis de masses dans un espace euclidien (i.e.c est un nuage);

<訳> ホイヘンスの定理:ユークリッド空間内の質量を持つ点の集合をcとする(すなわちcは雲である)。

 

また、Benzecri, J. P. (1982) Historie et Préhistorie de l'Analyse des Données. Dunodp.143には、以下のような簡単な記述があります.

“nuage”ou ensemble de points munis de masses dans un espace euclidien.

<訳> 「雲」:またはユークリッド空間内の質量を持つ点の集合

 

「雲」と訳した理由

このように“nuage”cloud)には,<空間に散らばった(重みをもった)点>や<(重みをもった)点の集合>という意味があります.「雲」以外の短い語句で的確に表記することには無理があると考えました.そこで,本翻訳書では,別の語句に置き換えることをせず,”cloud”に対して最も使われている日本語訳である「雲」を採用しました.

 

また,本翻訳書の第2章は,章名は“The Geometry of a Cloud of Points”です.この英語を「雲の幾何学」と訳しました.この第2章は,著者らが「雲」の概念を読者に正確に伝えるために意図的に工夫して書かれていると考えています.そして,この第2章で説明されている「雲」をもとに, 多重対応分析を幾何学的に解釈しています.「雲」は,幾何学的データ解析において非常に重要な概念だと考えています.

 

「雲」以外に考えられる訳語

”cloud”の訳語としては,いくつかの別の候補もありました.

 

1に,”cloud”は,「大群」と訳す場合もあります.例えば,”a cloud of bees”を日本語に訳す場合には,「蜂の雲」とは訳さず,「蜂の大群」ぐらいに訳すでしょう.Le Roux and Rouanet (2010) Geometric Data Analysis: From Correspondence Analysis to Structured Data Analysis, Kluwer Academic Publishersp.75に次のような喩えが記載されています.

For instance, the impacts of bullets on a target, or the positions of the bees in a swarm define Euclidean clouds.

<訳>たとえば,的(まと)に対する銃痕や,群れにおけるミツバチの位置は,ユークリッド雲を構成する.

 

2に,以下のWikipedia2021128日現在)では,”point cloud”に対する日本語訳として,「点群(てんぐん)やポイントクラウド(英: point cloud)」となっています.

ja.wikipedia.org

 

3に,フランス語の”nuage de points”は,「散布図」を指すこともあります.たとえば,フランス語版の統計ソフトウェア(JMPフランス語版)では,”nuage de points”が「散布図」を指している個所もあります.ほかにも,以下のURLで公開されている統計用語データーベース(日本統計学会 統計教育委員会(翻訳),末永勝征・上村尚史・竹内光悦(制作・管理))では,日本語の「散布図」に対するフランス語訳の1つとして”nuage de points”を挙げています.

estat.sci.kagoshima-u.ac.jp

 

4に,”cloud”を片仮名で「クラウド」と訳す場合もあります.たとえば『文化・階級・卓越化』で訳しているように,「クラウド」と訳すこともあります.また,最近はコンピュータ関連で,「クラウドコンピューティング」や「クラウドサービス」といった用語があります.

 

「群」もしくは「点群」と訳さなかった理由

“cloud”を「群」もしくは「点群」と訳さなかった理由は,”group”の日本語訳である「群」と混乱するのを避けるためです.日本語の「群」は分散分析などで (男性・女性などの)groupを指すのに使われており,「群間分散」や「群内分散」などと「群」という用語が使われています(これらの元の英語は,"between variance””within variance”なので,直訳すると「間分散」と「内分散」です).また,「群」とだけ表記すると,数学分野の群論における「群」(group)をイメージすることも危惧しました.

 

「集合」もしくは「点集合」と訳さなかった理由

“cloud”を「集合」もしくは「点集合」と訳さなかった理由は,数学用語の”set”に対する日本語訳である「集合」と混乱するのを避けるためです.同書には,集合を意味する”set”も登場するため,”cloud”には別の訳を割りあてたほうがよいと考えました.

 

「散布図」と訳さなかった理由

少なくとも同書では,“cloud”もしくは”cloud of points”を「散布図」と訳すことにはためらいがありました.なぜなら,同書では,<重み(質量)をもつ点の集合>”cloud”と呼んでおり,散布図はその”cloud”の分布を視覚的に表現する方法の1つにすぎないからです.

 

クラウド」と訳さなかった理由

クラウド」と訳さなかった理由は、なるべく片仮名表記を避けるためです.片仮名表記が増えると,可読性が悪くなると考えています.また,同書において”cloud”は頻出用語であり,かつ,”between cloud”, “projected cloud”, “subcloud”など,日本語訳では複合語としたい用語も沢山あったので,「クラウド」と片仮名にするのを避けました. 

 

最後に

なお,本書の原著者らが主張する幾何学的データ解析や構造化データ解析の考え方をなるべく正しく伝えるために,「雲」だけではなく,いくつかの造語を用いています.

 

E[Y11 Y22] = ψ E[Y12 Y21]を確認してみよう!

McCullagh, P. and Nelder, J.A. (1st ed.:1983, 2nd ed.:1989) Generalized Linear Models, Chapman & Hall の問題9.10における最初の問い(推定関数の期待値がゼロとなることを確認してくださいね,という問い)を考えてみました.

もっとエレガントな解き方がたぶんあると思います.もしエレガントな解き方を知っている方がいれば教えていただけると... 助かります... .

設定

次のような表を考える.

 

A

Not A

Total

Sampled Y_{11}

Y_{12} = m_1 - Y_{11}

m_1

Non-sampled

Y_{21} = s_1 - Y_{11}

Y_{22} = m_2 - s_1 + Y_{11}

m_2

Total

s_1

s_2

m.

行和および列和ともに固定されており,オッズ比  \psiの非心度超幾何分布に従っているとする.ここでは Y_{11}を基準に考えていくとして,確率関数が次のようになっているとする.

 Pr(Y_{11}= y_{11}| \psi, {\bf s}, {\bf m}) = \frac{ _{m_1} C _{y_{11}}  \ \ {_{m_2} C _{y_{21}}} \ \ \psi^{y_{11}}} {P_0(\psi)}

ここで  {\bf s} = (s_1, s_2), {\bf m} = (m_1, m_2) であり,また, P_0(\psi) = \sum_{y_{11} \in D_1} {_{m_1} C _{y_{11}}}  \ \ {_{m_2} C _{y_{21}}} \psi^{y_{11}}(分子を標本空間全体の領域で足し合わせたもの)である.標本空間全体の領域を示す集合 D_1は,上表の4つのセルすべてにおいて,度数がゼロ以上となっているものの集まりである.

 D_1 = \{y_{11} \in {\mathbb Z} | y_{11} \ge 0, y_{21} \ge 0, y_{12} \ge 0, y_{22} \ge 0\}

なお,この集合 D_1の条件には,

 y_{21} = s_1 - y_{11}, y_{12} = m_1 - y_{11}, y_{22} = s_2 - m_1 + y_{11}

という等号制約もあるが,煩雑になるので以下でも,( D_1, D_2, D_3, D_4に対する)この種の等号制約は記載を省略することにする.

解答

上記の設定のもとで  \psi E[Y_{12} Y_{21}]= E[Y_{11} Y_{22}]となることを確認していく.LOTUS(law of the unconscious statistician)より,

 \psi E[Y_{12} Y_{21}] = \psi \sum_{y_{11} \in D_1} y_{12} y_{21} Pr(Y_{11}= y_{11}| \psi, {\bf s}, {\bf m})

        = \frac{ \psi \sum_{y_{11} \in D_1} y_{12} y_{21} \ \ {_{m_1} C _{y_{11}}}  \ \ {_{m_2} C _{y_{21}}} \ \ \psi^{y_{11}}} {P_0(\psi)}

である.以後,簡単のため分子だけを見ていく. _x C _y = \frac{x!}{y! (x - y)!}より,

(分子)  = \sum_{y_{11} \in D_1} y_{12} y_{21} \ \ {_{m_1} C _{y_{11}}}  \ \ {_{m_2} C _{y_{21}}} \ \ \psi^{y_{11}+1}

      = \sum_{y_{11} \in D_1} y_{12} y_{21} \ \ \frac{m_1!}{y_{11}! y_{12}!} \ \frac{m_2!}{y_{21}! y_{22}!} \ \ \psi^{y_{11}+1}

 y_{12} = 0もしくは y_{21}= 0の項は上記の総和には貢献しないことに注意しながら, \frac{x}{x!} = \frac{1}{(x-1)!}と計算すると, 

      = \sum_{y_{11} \in D_2} \frac{m_1!}{y_{11}! (y_{12}-1)!} \ \frac{m_2!}{(y_{21}-1)! y_{22}!} \ \ \psi^{y_{11}+1}

と変形される.ここで  D_2 D_1から,  y_{12} = 0もしくは y_{21}= 0である集まりを引いたものである.

 D_2 = \{y_{11} \in {\mathbb Z} | y_{11} \ge 0, y_{21} \ge 1, y_{12} \ge 1, y_{22} \ge 0\}

この変形した式の分母分子に (y_{11} + 1)および (y_{22} + 1)をかけると,

      = \sum_{y_{11} \in D_2} (y_{11}+1)(y_{22} + 1)\frac{m_1!}{(y_{11}+1)! (y_{12}-1)!} \ \frac{m_2!}{(y_{21}-1)! (y_{22}+1)!} \ \ \psi^{y_{11}+1}

となる.

ここで,次のように置換する.

 y'_{11} = y_{11} + 1

 y'_{12} = y_{12} - 1

 y'_{21} = y_{21} - 1

 y'_{22} = y_{22} + 1

上記の変数に置換した式は次のようになる.

      = \sum_{y_{11} \in D_2}  y'_{11} y'_{22} \frac{m_1!}{y'_{11}! y'_{12}!} \ \frac{m_2!}{y'_{21}! y'_{22}!} \ \ \psi^{y'_{11}}

集合  D_2y'_{11} , y'_{12} , y'_{21} , y'_{22} に置き換えた D_3は次のようになる.

 D_3 = \{y'_{11} \in {\mathbb Z} | y'_{11} \ge 1, y'_{21} \ge 0, y'_{12} \ge 0, y'_{22} \ge 1\}

ここで,

 y'_{11} + y'_{12} = y_{11} + y_{12} = m_1

 y'_{21} + y'_{22} = y_{21} + y_{22} = m_2

 y'_{11} + y'_{21} = y_{11} + y_{21} = s_1

 y'_{12} + y'_{22} = y_{12} + y_{22} = s_2

となっていることに注意する.つまり, y'_{11}, y'_{12}, y'_{21}, y'_{22}に対する周辺和による制約は,元の y_{11}, y_{12}, y_{21}, y_{22}に対する周辺和による制約とまったく同じである.また, y'_{11} = 0もしくは y'_{22} = 0となっている項は総和には貢献しないことを踏まえれば,上記の式は

      = \sum_{y'_{11} \in D_4}  y'_{11} y'_{22} \ \ {_{m_1} C _{y'_{11}}}  \ \ {_{m_2} C _{y'_{21}}} \ \ \psi^{y'_{11}}

と変形できる.ここで

 D_4 = \{y'_{11} \in {\mathbb Z} | y'_{11} \ge 0, y'_{21} \ge 0, y'_{12} \ge 0, y'_{22} \ge 0\}

である.周辺和に対する制約も同じだったので,この D_4 D_1と等しい.置換した式のプライムをすべて除いて記述すると,

      = \sum_{y_{11} \in D_1}  y_{11} y_{22} \ \ {_{m_1} C _{y_{11}}}  \ \ {_{m_2} C _{y_{21}}} \ \ \psi^{y_{11}}

となる.ここで D_1は前述したものであり,再掲すると,

 D_1 = \{y_{11} \in {\mathbb Z} | y_{11} \ge 0, y_{21} \ge 0, y_{12} \ge 0, y_{22} \ge 0\}

である.

 

以上のことから,

 \psi E[Y_{12} Y_{21}] = \frac{\sum_{y_{11} \in D_1}  y_{11} y_{22} \ \ {_{m_1} C _{y_{11}}}  \ \ {_{m_2} C _{y_{21}}} \ \ \psi^{y_{11}}}{P_0(\psi)}

となることが確認できた.よって,

 \psi E[Y_{12} Y_{21}] =  \sum_{y_{11} \in D_1} y_{11} y_{22} Pr(Y_{11}= y_{11}| \psi, {\bf s}, {\bf m})

       = E[Y_{11} Y_{22}]

である.

修正

2021年10月19日 22:45   総和の範囲 D_1, \dots, D_4において,周辺和で固定されているのが抜けていた.

厳しいテストについての私の拙い理解(久馬巌さんへの返答)

このブログ記事の内容は,他のブログ記事と同様,筆者だけに責任があり,所属組織は一切の責任を負いません.

 

このブログ記事は,以下の久馬巌さんのつぶやきに対する個人的なリプライです.

 

Twitterで返事すればいいのですが,長くなるのでブログ記事にしました.

 

ひどい間違いがあれば,この記事ごと削除するかもしれません.

 

まずお断りですが,私は久馬巌さんよりも,Mayo先生の誤り統計学について理解していないと思います.このブログ記事では,私が,どの文献のどこを見て,現在どのように解釈しているかを述べます.

 

以下,Mayo, D. G. (2018), Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars, Cambridge University Pressを「SIST」と表記します.また,ページ数は Kindle版のものです(紙版は持ち合わせていません).購入履歴を見ると,2019年9月末に私は購入していました.何のきっかけで同書を購入したかは不明です.

なお,このブログ記事全体を通じて,取り上げた仮想例は,簡単のため,<観測値が,分散既知の独立同一正規分布に従っている>という前提を置いています.そして,分析者は,この真の状態を知っており,母平均だけが未知だとします.より現実的な例については,今後の課題としたいと思います.

 

厳しいテストの大まかな方針

Mayo先生の「厳しいテスト」は,<ある主張をしたい時には,生ぬるいテストに合格しただけでは駄目で,その主張が間違っているときには高い確率で「間違っている!」と検出できるテスト(=厳しいテスト)に合格しないといけない>という考えに基づいてると,私は解釈しています.

私がそう思うのは,SISTのp.xiiにて,次のように説明されているからです.

A claim is severely tested to the extent it has been subjected to and passes a test that probably would have found flaws, were they present.

拙訳:「もし誤りがあれば,その誤りを高い確率で見つけるであろうテストにかけられて,そして,合格したとき,その主張は厳しくテストされた[と言う].」

この「厳しさ」という用語はPopperから来ているようです.SISTのp.9に次のように書かれています.

The term “severity” is Popper’s, though he never adequately defined it.

拙訳:「この用語「厳しさ」は,Popperの用語である.ただし,Popperは,この用語を適切に定義しなかった.」

 

厳しいテストを提案した動機?

SISTの前書きを読む限り,第1に統計学における各派閥間の論争(「統計学戦争」とMayo先生が呼ぶもの)に決着を付けるために,第2に大規模データに対する妥当なテストを提案するため(従来の統計的検定では,検出力が高くなるため,ちょっとの差でも有意となる)との動機があったようです.

そのような動機を読む限り,SISTは,統計学の現状を記述するというよりも,科学哲学の立場から「テストとはこうあるべき」という「べき」論を提案しているのだと思われます.

 

科学哲学者による初心者用講義

私自身がSISTを直接,読んで,誤り統計学や厳しいテストを(私なりに)理解したのではないはずです.

2020年1月に松王政浩先生による「統計学の哲学を理解するために」という初心者用の講義があり,その講義を私は受講いたしました.

同講義において,誤り統計学や厳しいテストが初心者向けに解説されました.そこでの解説が,私の解釈の土台だと思います(ただし,私が松王先生の解説を誤解せずに理解できている自信はまったくありません).

 

Rのseverityパッケージ

松王先生の講義とSISTの摘み読みにより,厳しいテストの大まかな方針は(私なりに)なんとなく分かりました.

それらの知識に加え,ごく最近(2021年9月2日)に,Rにseverityパッケージというものがあることを知りました.

ある限られた仮想例(正規分布で分散既知の場合における一標本母平均の検定)において,厳しいテストをどのように利用するかは,このseverityパッケージを通じて知りました.なお,見直してみると,上記の松王先生の講義テキストにも計算手順がかなり細かく解説されていました.

severityパッケージは,以下のサイトにおいて公開されています.

cran.r-project.org

TwitterでのMayo先生へのメンション

最初にRのseverityパッケージを動かして見たところ,単に事後的に検出力を求めているだけだと私は勘違いしました.Twitterにて,<このseverityパッケージは,事後的検出力をしているだけだ.事後的検出力を求めることは,統計学では冗長だとされている>とのメンションをTwitterにてMayo先生に投げました.

この誤解は私がSISTを読んでなかったためだけから来た誤解であり,また,Mayo先生の本を読んでいない人がよくする誤解のようです.<SISTの5.5節を読んでくださいね>との返信をMayo先生からいただきました.

実際,SISTの5.5節を読んでみると,標本平均に対して検出力(に相当するもの)をプロットするのではなく,母平均の仮説値に対して検出力(に相当するもの)をプロットしているので,事後的な検出力とは違うことが理解できました.

(なお,この後,このseverityパッケージで行っていることは,p値関数や竹内先生の手法に関連するのではないかと私は返信しました.)

 

ポピュラー統計学における統計的検定について

分散既知の独立同一正規分布での一標本母平均に対する検定という仮想例で,統計的検定にどのように厳しいテストを付随させるかは,SISTのp.347あたりにて

  • "SIN (Severity Interpretation for Negative Results)"および
  • "SIR (Severity Interpretation for Significant Result)"

として解説されています.以下,通常の統計的検定を発展させて,厳しいテストを付随させたものを,便宜的に「SEV検定」と呼ぶことにします.

 

SEV検定を見ていく前に,まず,ポピュラー統計学において統計的検定がどのように使われているかを確認しておきましょう.現在のポピュラー統計学の王道が何かであるかを特定するのは難しいですが,ハウツー本で私がたびたび見かけるパターンは,次のような手順です.

  1. 点仮説の帰無仮説  H_0: \mu = \mu_0を立てる.
  2. 両側p値を計算する.
  3. p値が小さければ帰無仮説を否定し,p値が大きければ結論を保留する.

以下,この手順を「ポピュラー検定」と便宜的に呼ぶことにします.このポピュラー検定の最大の特徴は,「帰無仮説を否定する」か「結論を保留する」かの2通りしか結論がない点です.

 

SEV検定の概略:ポピュラー検定との違い

前節のポピュラー検定に対して,SEV検定では,結論はざっくりと4通りあります(...と思います...).

  1. 検定が有意ではなく,厳しさもない場合
  2. 検定は有意ではないが,厳しさはある場合
  3. 検定は有意だが,厳しさはない場合
  4. 検定が有意であり,厳しさもある場合

ポピュラー検定とSEV検定が異なってくるのは,まず,上記「2. 」の「有意ではないが,厳しさはある場合」です.この場合,ポピュラー検定では結論を保留することしか行いません.一方,SEV検定では,帰無仮説を(ある厳しさの基準のもとで)支持します(...と思います...私が勘違いしていなければ...).

また,上記「3. 」の「検定は有意だが,厳しさはない場合」でもポピュラー検定とSEV検定は異なってきます.この場合,ポピュラー検定では帰無仮説を否定します.一方,SEV検定では,厳しさがないものとして,(ある厳しさの基準のもとで)対立仮説を支持しません(...と思います... 私が勘違いしていなければ...).

 

SEV検定の概略:基本的方針

この節の説明は,かなり私の想像が入っています.いちいち,「...と思います」を文末に付けるのは面倒なので断定調で書きますが,話半分で読んでください.

厳しいテストとは,<ある主張が間違っていたら,その主張が間違っていることを高い確率で検出するようなテスト>でした.SEV検定は,通常の統計的検定に,この厳しいテストを付随させたものです.

 

SEV検定では,まず(両側検定ではなく)片側検定を設定します.そして,

  • p値が大きくて,かつ,ある基準の厳しいテストを合格すれば,(その厳しさの基準のもとで)帰無仮説を支持する
  • p値が小さくて,かつ,ある基準の厳しいテストを合格すれば,(その厳しさの基準のもとで)対立仮説を支持する

という手順を踏みます.

仮想例での計算手順

ここでの「厳しさ」(SEV)に対する説明は,SISTや松王先生講義でのものと特に大きく違います.また,記号も異なります.

 

仮想例として,SISTと同じように,分散既知の独立同一正規分布における一標本母平均を取り上げます.データ生成過程を X_i \sim N(\mu, \sigma^2), i.i.d. \ (i = 1, \dots, n)とし,分析者は,このデータ生成過程のなかで \muだけが未知であり,他は全部,既知であると仮定します.

 

ステップ1:まず,次のような帰無仮説 H_0 と対立仮説 H_1を設定して,p値を計算します.片側検定である点に注意してください.

  •  H_0: \mu \le 0
  •  H_1: \mu \gt 0

ここでは説明のため仮説値(仮説における右辺の値)をゼロとしましたが,ゼロでなくても構いません.

 

ステップ2-1:ステップ1のp値がある閾値より大きい場合(つまり,ステップ1で有意でない場合)には,次のような新たな仮説に対する検定のp値を \mu_1を動かしながら計算します.

  •  H_0: \mu \gt \mu_1
  •  H_1: \mu \le \mu_1

この新たな検定のp値を, p_1(\mu_1)と表します. p_1(\mu_1)が小さければ, H_1: \mu \le \mu_1と主張できることを意味します.この時の厳しさ  SEV(\mu \le \mu_1)は,1からこのp値を引いた

  •  SEV(\mu \le \mu_1) = 1 - p_1(\mu_1)

と定義されます.厳しさ SEV(\mu \le \mu_1)がある値cであれば,「 SEV(\mu \le \mu_1) = cという厳しさのもとで, H_0: \mu \le 0と主張する」ことになります.

 

ステップ2-2:ステップ1のp値がある閾値以下の場合(つまり,ステップ1で有意な場合)には,次のような新たな仮説に対する検定のp値を \mu_1を動かしながら計算します.

  •  H_0: \mu \le \mu_1
  •  H_1: \mu \gt \mu_1

この新たな検定のp値を, p_2(\mu_1)と表します. p_2(\mu_1)が小さければ, H_1: \mu \gt \mu_1と主張できることを意味します.この時の厳しさ  SEV(\mu \gt \mu_1)は,1からこのp値を引いた

  •  SEV(\mu \gt \mu_1) = 1 - p_2(\mu_1)

と定義されます.厳しさ SEV(\mu \gt \mu_1)がある値cであれば,「 SEV(\mu \gt \mu_1) = cという厳しさのもとで, H_0: \mu \gt 0と主張する」ことになります.

既存の方法との関連性①:p値関数

この節の話は,SISTではまったく書かれていません.

前節で見たように,SEV検定は2ステップで構成されていました.SEV検定から1ステップ目をなくして,単に \mu_1に対して1 - SEVをプロットした曲線は,「p値関数」と呼ばれています.SEV検定とp値関数との関連性は,以下の論文で指摘されています.

bmcmedresmethodol.biomedcentral.com

 

なお,この仮想例においては(左右対称なので),片側検定のp値曲線を描いた時の, p(\mu_1) \ge 0.025(つまり, SEV(\mu_1) \le 0.975)となる範囲は,両側95%信頼区間を表します.

既存の方法との関連性②:多重決定方式

この節の話は,SISTではまったく書かれていません.

ここでSEV検定を,次のように単純化した手順を考えてみます.以下では,簡単のため,SEV(厳しさ)に対する閾値を0.975としています.

  • ステップ1は行わない.
  • ステップ2において,SEV(厳しさ)は \mu_1=0の時のものしか,つまり, SEV(\mu \le 0)および SEV(\mu \gt 0)しか計算しない.なお, SEV(\mu \le 0) = 1 - SEV(\mu \gt 0)である.
  • いずれかのSEVが0.975以上の時には,その主張をする.例えば, SEV(\mu \le 0) = 0.975であれば, \mu \le 0と主張する. 
  • いずれかのSEVも0.975未満の時には,結論を保留する.

このように単純化されたSEV検定を,「SEV0検定」と呼ぶことにします.このSEV0検定は,次の検定と同じです.

  • 帰無仮説 H_{A0}: \mu \le 0を検定する.
  • 帰無仮説 H_{B0}: \mu \gt 0を検定する.
  • 帰無仮説 H_{A0}に対する検定が2.5%有意ならば, \mu \gt 0と主張する.
  • 帰無仮説 H_{B0}に対する検定が2.5%有意ならば, \mu \le 0と主張する.
  • どちらの検定も,有意でなければ. -\infty \lt \mu \lt +\inftyと主張する(つまり,結論を保留する).

このSEV0検定は,2つの検定を行なっているのにも関わらず,全体の第1種の誤りを2.5%に制御できています.パラメータ空間全体を分割してそれらが互いに素である場合,それらの分割された空間の複数の帰無仮説を普通に検定しても,全体の第1種の誤りは保たれます.このような検定方法は,多重決定方式や分割方式(partioning)と呼ばれています.多重決定方式の初出は,竹内啓(1973)『数理統計学の方法的基礎』東洋経済新報社(第8章)です.

上記の多重決定方式(SEV0検定)では,結論としては,「 \mu \le 0」,「 \mu \gt 0」,「 -\infty \lt \mu \lt +\infty」の3種類しかありません.この結論を,全体の第1種の誤りを保ちながら,より狭くすることができます.詳しくは,竹内(1973)などに譲りますが,次のような信頼区間も,全体の第1種の誤りを保ちます.

 (\Theta_1 \cap C_1) \cup (\Theta_2 \cap C_2)

ここで,

  •  \Theta_1 = \{\mu \in \mathbb{R} | \mu \le 0\}
  •  \Theta_2 = \{\mu \in \mathbb{R} | \mu \gt 0\}
  •  C_1 = \{\mu \in \mathbb{R} | \mu \ge \bar{X} - z_{1-\alpha} \sigma/\sqrt{n}\}
  •  C_2 = \{\mu \in \mathbb{R} | \mu \le \bar{X} + z_{1-\alpha} \sigma/\sqrt{n}\}

です.

この信頼区間は通常の両側95%信頼区間よりも, \mu \gt 0を検出しやすく,片側検定 H0: \mu \le 0については同じ結論が得られる信頼区間となっています.しかも,「 H0: \mu \le 0」,「 H0: \mu \gt 0」,「 -\infty \lt \mu \lt +\infty」という信頼区間よりは狭くなっています.

実用上は,上記のようないびつな信頼区間は,ほぼ使われていません.

使われていない理由は,おそらく,第1に,計算がやや複雑なのがあると思います.より単純な普通の両側信頼区間の方が分かりやすいです.

第2に,多くの分野において,両側5%とした時には片側は2.5%にする慣習があると思います.計算上は,片側2.5%は,両側5%と2倍になるので,片側2.5%検定を両側5%検定にすると,検出力の点で損をします.しかし,少なくとも臨床試験の統計ガイドラインであるICH E9では,両側5%かつ片側2.5%であることが推奨されています.そのため,両側5%でも,おそらく,2.5%と2.5%の等確率な裾が使われることが多いと思います.(もちろん,両側5%といっても,例えばプラセボ対象試験でプラセボの方が勝っても,プラセボが新薬として認可されるはずは「常識的にだけ考えても」ありえません.よって,1つの臨床試験での実質的な有意水準は,ICE E9に従うならば,5%ではなく,2.5%です).そのため,実用上は,(両側5%ではなく)片側5%の検定および,それに対応したいびつな信頼区間を使う必要はなく(片側5%検定やいびつな信頼区間を使ってちょっとでも得をしようとすることはできず),両側5%を用いたので十分になっているのだと思います.

そう考えると,検定結果に付随して,p値関数をプロットしたり,両側95%信頼区間を求めたりしただけで十分な気も少しします.

 

この仮想例の計算で分からない点

ステップ2において,有意でない場合には H_1: \mu \le \mu_1 SEVを,有意な場合は H_1: \mu \gt \mu_1 SEVを求めますが,SISTのp.347では \mu_1に対する制約があり, \mu_1 \gt 0としています.一方,Rのseverityパッケージでは, \mu_1 \gt 0という制約は課していません.この食い違いが何であるかは,私はよく分かっていません.

 

実際にseverityパッケージを動かしてみよう!

この節では,とりあえず,Rのseverityパッケージを動かしてみることにします.

 

まず,ステップ1での H_0: \mu \le 0, H_1: \mu \gt 0の検定が,片側2.5%で有意とならなかった場合を見てみましょう.

library(severity)
mu0 <- 0; sigma <- 1; n <- 1; alpha <- 0.025; xbar <- c(-1)
(sev <- severity(mu0 = mu0, xbar = xbar, sigma = sigma, n = n, alpha = alpha))
plot(sev$discrepancy, sev$severity_acceptH0, type= 'l')

次のようなSEV曲線が描かれます.

f:id:Tarotan:20210926103347p:plain

グラフの見た目で, H_1:\mu \le 0.0に対する厳しさは,0.82ぐらいのようです.同じくグラフの見た目で, H_1: \mu \le  1.0に対する厳しさは,0.97ぐらいのようです.

上記の厳しさは,pnorm関数を使えば,簡単に計算できます.

pval <- pnorm(xbar/(sigma/sqrt(n)), mean = sev$discrepancy, sd = 1, lower.tail = TRUE)
severity <- 1 - pval
print(severity)

 

次に,ステップ1での H_0: \mu \le 0, H_1: \mu \gt 0の検定が片側2.5%で有意となった場合を見てみましょう(上記のプログラムにおけるxbarの値を-1から2に変更しました).

xbar <- c(2)
(sev <- severity(mu0 = mu0, xbar = xbar, sigma = sigma, n = n, alpha = alpha))
plot(sev$discrepancy, sev$severity_rejectH0, type= 'l')

 

f:id:Tarotan:20210926104649p:plain

この場合の厳しさも,pnorm関数を使えば簡単に計算できます.

pval <- pnorm(xbar/(sigma/sqrt(n)), mean = sev$discrepancy, sd = 1, lower.tail = FALSE)
severity <- 1 - pval
print(severity)

 

厳しいテストはハウツーとして吸収したのでは駄目

<誤り統計学や厳しいテストを理解する>ことは,その背景にある科学哲学的立場を理解することであり,Rパッケージが使えることではないと私個人は思います.

精神なきハウツーとして誤り統計学や厳しいテストの表面的な計算をなぞることは避けるべきだと私個人は思っています.精神なきハウツーは,むしろ知らない方がマシなことも多いでしょう.

一方で,このブログ記事での私は,SEV検定の表面的な計算手順をなぞっただけです.これは私がSISTを読んでいないからです.私自身が嫌悪している<精神なくハウツーとして技術を吸収する状態>になってしまっています.

おそらく,誤り統計学の精神を吸収するのは,科学哲学における膨大な知識と技術が必要であり,中学校程度の哲学の知識がない私が一朝一夕で理解できるものではないでしょう.

...ということで,こんなブログ記事を書く暇があったら,SISTを私はまずは読むべきです(...と思い続けて,はや2年?).読んでいないのに勧めるのはなんなのですが,是非SISTを(私のために)読んでください....

 

このブログ記事の内容は,他のブログ記事と同様,すべて筆者だけに責任があり,所属組織は一切の責任を負いません.

 

1970年代赤池先生の I ≈ Jに対する意見について

このブログ記事に対しては,他のブログ記事と同様,筆者個人にすべての責任があります.所属組織は,一切,関与していません.

 

このブログ記事は,黒木さんによる以下のつぶやきに続く一連のスレッドに対する応答です.長くなりましたので,Twitterでのリプライではなく,ブログ記事にしました.

 

 

いつもありがとうございます.

 

私が論点をずらしてしまうかとは思いますが,このブログ記事では次の3点を述べます.

 

  1. ご指摘に応え,私が「 I = J」と述べていた箇所を,「 I \approx J」に修正します.
  2. 私のTwitterでの予想は「1970年代の赤池先生は, I \approx Jを(分析者の)主観的判断と考えていた」というものです.
  3.   I \approx Jではない場合のAICロバスト性を乱数シミュレーション実験で確認する場合,やる気になれば肯定的な結果も出せるし,否定的な結果も出せると思います.

 

 I = J」を「 I \approx J」に修正します

私が呟いたことは,<1970年代の赤池先生は, I = Jを分析者の主観的判断と考えていた>というものです.ご指摘されてみると,「 I = J」と表記すると, I Jがピッタリ一致しているように読めます.1970年代の赤池先生もさすがに完全に一致とは思っていなかったでしょうから,以後「 I \approx J」と変更いたします.

 

1970年代の赤池先生の I \approx Jに対する考え方

私の予想(<1970年代の赤池先生は, I \approx Jを分析者の主観的判断と考えていた>)の根拠は,引用した論文(赤池 1976)を,文字通りに読めば,そのように(少なくとも私には)読めるからです.私がそのように解釈した文章を再掲します.

一方, g(y)がある \theta_0によって  g(y) = f(y|\theta_0)と与えられる状態を想定することは,ひとつの主観的な行動原理である.有意性検定も AICのこの行動原理によって働いている.(p.9)

赤池弘次(1976)「情報量規準とは何か:その意味と将来への展望」『数理科学』152, 5-11

 

ただし,1980年以降の赤池先生がどのように I \approx Jを考えていたかは,(私はよく分からなかったので)この前のつぶやきでは触れないでいました.いま現在も,よく分かっていません.

1980年以降は,「実用上は(通常,分析者が仮定するモデルは真の分布にそんなに遠くないので)やはりAICはうまく働く」と赤池先生は考えていたのかもしれませんし,考えていなかったのかもしれません.

 

最晩年(2009年3月14日あたり)に書かれた,International Encyclopedia of Statistical Science(Springer, オンライン版)の"Akaike's Information Criterion"の説明を見ると,

In typical application of the method of maximum likelihood, ...

とだけ書かれており,<分析者によって仮定された分布が真の分布を包含していること>は触れられていません.

 

「納度」についての論文である赤池(2008)では,次のような説明が少しなされています.

情報量規準 AIC の利用の展開を通じて,統計モデルの観測値に基づく評価値として,想定するモデルと真のモデル,あるいは理想的なモデルとの近似度の評価として,対数尤度を利用することが一般化した.これは真のモデルが不明,あるいは人により異なる場合にも合理的な評価と見なされるという,対数尤度の間主観性に基づくものである.(p.253)

赤池弘次(2008)「納度の概念の利用について」統計数理 56(2), 253-258

 

いずれにしても,赤池先生の論文を,質・量ともに読みこんでおらず,<1970年代の赤池先生は, I \approx Jを分析者の主観的判断と考えていた>という私の予想は単なる確証バイアスなのかもしれませんし,特に1980年以降の考え方の変遷はよく分かりません.

 

乱数シミュレーション実験では,どちらの結果も出せちゃう

赤池先生がどのように考えていたかは置いておいて,現実的な実用において I \approx Jからのズレに対して,AICがどれぐらいロバストかは,私は数理にも実務にも疎いので,分かっていません.

1つだけ私が言えることは(わざわざ言うまでもないですが),妄想上の乱数シミュレーション実験では, I \approx Jとなる例も, I Jが異なる例も作り出すことはできるということだけです.

 I \approx Jとなっている例だけ見れば,「実用上,問題ないね」となりますし,そうでない例だけを取り出せば「実用には耐えられないね」となるでしょう.

実用に合わせた乱数シミュレーション実験をすればいいのかもしれませんが,実用上では「真の分布」は不明なことにしているので,現実的・実用的な前提を設定するのは難しいと私は思います.

 

一応,両方の数値例を,S-hacking(シミュレーションハッキング)をして作り出してみました.S-hackingとは,シミュレーションの設定を色々と試し,自分の都合がよい結果だけを報告するインチキ行為です.

以下のシミュレーション例はあくまでS-hackingというインチキをした結果であり,何の意味もありません.どちらの結果もお気軽に出せることを例示するためだけに,S-hackingをしました.

以下が用いたJuliaコードです(実際には別のマイナーなプログラム言語にて自分の都合がいい結果が出るのを確認した後,それをJuliaに移植しました,Juliaもよく分かっていないので,汚いコードですみません....)

using Distributions

using Random

 

function calc_emlogf_and_aic(nsim, n, true_model, my_models)

    n_my_models = length(my_models)

    logf = zeros(n_my_models)

    aic = zeros(n_my_models)

    for i in 1:nsim

        xt = rand(true_model, n)

        xv = rand(true_model, n)

        for j in 1:n_my_models 

            fit_model = fit_mle(my_models[j], xt)

            logf[j] = logf[j] + sum(logpdf(fit_model, xv))

            aic[j] = aic[j] + sum(logpdf(fit_model, xt)) - length(params(fit_model))

        end

    end

    return [logf/nsim, aic/nsim]

end

 

Random.seed!(99999)

 

print(calc_emlogf_and_aic(1e6, 300, Gamma(20, 0.05), [Normal]))

print(calc_emlogf_and_aic(1e6, 300, Exponential(1), [Normal]))

print(calc_emlogf_and_aic(1e6, 300, Gamma(2.32, 1.0), [Normal, Exponential]))

 

#   真の分布がGamma(20, 0.05),あてはめた分布が正規分布

# 期待平均対数尤度:22.58037711801546

# AIC(の-0.5倍)  :22.75427456712602

 

#   真の分布が指数分布,あてはめた分布が正規分布

# 期待平均対数尤度:-428.24091640772633

# AIC(の-0.5倍)  :-425.23723892046803

 

#  真の分布 Gamma(2.32, 1.0)

#                        正規分布                  指数分布

# 期待平均対数尤度:-553.572848659754     -552.676966249488

# AIC(の-0.5倍)  :-552.2373503875936    -553.2298269847855

黒木さんがTwitterにて挙げた例1のような設定(ガンマ分布 Gamma(20, 0.05)に対して正規分布を仮定)ならば, AIC(を-0.5倍したもの)の平均は,期待平均対数尤度にかなり近くなっています.両者は,AIC(を-0.5倍したもの)の平均は22.6,期待平均対数尤度は22.8となっています.

しかし,例2のような設定ならば,AIC(を-0.5倍したもの)の平均は,期待平均対数尤度から離れた値となっています.前者が-425.2なのに対し,後者は-428.2です.

また,例3のような設定ならば,AIC(を-0.5倍したもの)の平均と期待平均対数尤度はまあまあ近いのですが,2つの仮定したモデルにおいて,AIC(を-0.5倍したもの)の平均の大小関係と,期待平均対数尤度の大小関係が逆になっています.

 

これら例2と例3は,繰り返しになりますが,S-hackingという不正なインチキをして,シミュレーションの設定を調整したものです.このようなS-hackingという不正なインチキをすれば,成立する例も,成立しない例もどちらともお気軽に出せちゃいます(... わざわざ,言うまでもありませんが…),

 

なお,これらの例は現実的な利用例にもなっていないと思います. n = 300のこの例での多くの統計ユーザーの第1選択はヒストグラムを描くことであり,第2選択はQQプロットを描くことでしょう.ヒストグラムやQQプロットを描けば,この例では,正規分布にも,指数分布にも,データが適合していない見た目ですぐに分かるでしょう.つまり,例2や例3でのAICによるモデル選択は「リンゴとミカンのどちらが自動車?」みたいな選択になっていますが,多くの分析者はこの例の状況ではそのような馬鹿げた選択は行わないと私は(主観的に)思います.

 

AICを用いるときに「真の分布」は知らないことになっています.「真の分布」が分からないと,たぶん,   I \approx Jなのか否か(もしくは, I JのズレがAICを利用できるほどに影響していないか否か)は知ることができません.  I \approx Jを何かしらの数理的根拠で分析者は正当化していないという意味で,通常の多くのAIC利用者は, I \approx Jを主観的に判断していると言えるのではないかと私は思います.

 

最後に

数理に強ければ,うまいことズレを表現して,どれぐらいのズレの時にどれぐらいAICによる判断が妥当でなくなるかを示せるのでしょうけれども,私にはその技術はありません.また, I \approx Jからのズレを検出する方法も提案されていそうですが,私は調べておらず,まったく知りません.

 

このブログ記事に対しては,他のブログ記事と同様,筆者個人にすべての責任があります.所属組織は,一切,関与していません.

 

K. Pearsonの「記述」は,「記述統計学」の「記述」とは異なるだろう(たぶん)

執筆者:小野裕亮

2022年4月4日追記:統計学史の専門家から聞いた意見とアドバイスを,以下のブログ記事に述べています.

<「統計学は科学の文法である」とKarl Pearsonは言った>および<K.Pearson=記述統計 vs R.A.Fisher=推測統計>という言説に関して - Tarotanのブログ

 

このブログ記事では,伊勢田(2021)での大塚(2021)のP.19に対する指摘に関係するかもしれない情報として,現段階で私が知っている限りことですが,次の2点を紹介したいと思います.

 

  1. K.Pearson『科学の文法』における「記述」は,現在のハウツー本で紹介される「記述統計学」の「記述」とは違う意味で使われているだろう.
  2. <「統計学は科学の文法だ」by K.Pearson>とのネット情報をたまに見るが,少なくとも『科学の文法』の中で,少なくとも直接的には,K. Pearsonはそんなことを言ってはいないだろう.

 

1. に関しては,日本特有の現象であり,戦後における推計学派や,私自身が身を置くポピュラー統計学業界による啓蒙活動の悪影響ではないかと私は思っています.

ただし,竹内(2018)では,K. PearsonとFisherとの間の「個人的対立や感情的軋轢」により,FisherがK. Pearsonを「強く批判ないし否定」したことから,「断然が強調されるようになった」と見ています.

また,竹内(1976)でも,増山元三郎や北川敏男によるK. PearsonとFisherの対比がおかしいことを指摘しながら,「思想的な断絶が強調されたのは、むしろ、カール・ピアソンとフィッシャーの間の個人的jな対立からでしょう。」(竹内 1976,p.109)と述べられています.

竹内(2018, 1976)の見立てが正しいならば,日本以外の国でも似たような対比が見られるはずですが,アメリカとイギリスの一部だけしか私が見ていないせいか,「記述統計学」と「推測統計学」との対比は見かけるものの,その対比をK. PearsonとFisherとの対比に結び付けるのは(アメリカやイギリスでは)私は見たことがありません.

 

2.に関しては,どこからこの話が湧いてきたのか,まったく私は分かっていません.

 

お断り

私自身は,統計学関連の営利民間企業に勤める会社員です.哲学や統計学史について専門教育を受けたことはありません.

統計学自体も,統計学専門の教育を受けていないのですが,(廃止された)RSS/JSS Graduate Diplomaという資格は所有しています.

このブログ記事の責任は,すべて私個人だけに帰します.所属企業は一切の責任を負いません.

 

1の「K. Pearson=記述統計学」という説について

恥ずかしながら私は最近知ったのですが,社会統計学系の研究者(たとえば,上藤一郎 1999・長屋政勝 1982)が,K.Pearsonの『科学の文法』での<記述 vs 説明>の「記述」は,数理統計学や戦後推計学での<記述統計学 vs 推測統計学>の「記述」とは異なることを20〜40年前に指摘しています.科学史専門家などには周知の事実だったようで,有賀(2012)でも,いくつかの別の文献が紹介されています.

 

統計学史での先行研究はあったのに,想像するに,(私自身も含めた)統計学業界の啓蒙者たちやインストラクターたちは,それらの先行研究を見逃し,すでに普及している説明やフレーズを流用してきたのだと思います.

 

K. Pearsonの「記述」が現在の「記述統計」を意味していなかったことについては,私が知っている限りでも,いくつかの証拠と思われるものがあります.3点だけ述べます.

  1. The Grammar of Science(1911; 第3版)のp.161で,<現代の数理統計学での中心的話題として標本抽出論がある>と述べられています.もしも,『科学の文法』における「記述」が「推測」に対比されるものならば,標本抽出論を好意的に紹介することはないでしょう.
  2. K.Pearsonは,Biometrikaにおいて,標本抽出理論に基づく推測統計の(応用および数理に関する)文献を数多く残しています.たとえば,Pearson(1903)などです.K. Pearsonの統計学には,当初から,推測統計学の枠組みが組み込まれていたと見る方が穏当だと思います.
  3. データを無作為標本とみなしていただけでなく,調査においても無作為抽出を推奨しています.優生学に関する講演(Pearson 1912, pp.6-7)において,K. Pearsonは学校での健康診断に関して,全数調査によって特定の年齢しか調べていないことを嘆いています.そして,K. Pearsonは,標本抽出によって得られた生徒一人一人を詳しく調べていることを推奨しています.少なくとも同講演においては,K. Pearsonは全数調査よりも無作為抽出を推奨していています.もし記述統計学を重視しているならば,調査でも全数調査を推奨することでしょう.

 

日本においては,戦後に推計学を啓蒙する過程において,<K. Pearson=記述統計学(=ドイツ社会統計学=封建的)vs. Fisher=推測統計学・推測学(=弁証法的)>という史観が広まってしまい,後戻りができなくなってしまったのだと私は思っています.

現在においても,きちんとした信頼できる文献や資料でも(たとえば日本数学史学会編(2020)の「統計と数学」でのpp.312-313の説明でも),この推計学史観(K.Pearson=記述統計 vs Fisher=推測統計)が時々,登場します.ですので,このブログ記事の書いている内容が(つまり私の述べている内容が),とんでもない勘違いをしている可能性もあります.

私自身,誰から聞いたのか忘れましたが「K. Pearsonは記述統計学だ!」と長らく信じていたので,セミナーで,居酒屋で,もしくは,どこかの説明資料やプレゼンで,そのように他人に説明したかもしれません.

 

1に関するいくつかの補足

記述と帰納の区別

isherの論文や本が浸透する前に,記述的(descriptive)と帰納的(inductive)との対比が,すでにKeyens(1921)における第27章 “The Nature of Statistical Inference”(pp.327-331., 訳書 pp.377-380)で見られます.現代の意味での「推測」と現代の意味での「記述」との対比は,Fisherが普及する前から存在していたと思われます.この点からも,Fisher以降から推測統計学の観点が普及したという見方は不自然です.

OEDでの初出確認 

オンライン版OED(Oxford English Dictionary)において,”descriptive statistics”の初出とされているのは,Von Neumann-Spallart(1885)です.オンライン版OEDには,”inferential statistics”の項目はありませんでした.

 

戦中までの日本での「記述統計」

日本では(日本でも?),当初,ドイツの社会統計学経由で「記述(的)統計」という表現は輸入されたようです.

呉(1906,p.28)において,「ゲー、リユメリンは統計の方法は是れ即ち学問なりと云ひ統計の方法を二種に分ち技術的方法記述的方法と云ひ技術的方法は統計の方法を社会的現象に応用するに方り特別の知識と技術とを要すとなし此技術と知識とに由て観察したる社会的現象は総て之を整理編纂して社会の現象を記述せざる可らす之を記述的統計と云ふと云へり」との紹介があります.

 

ドイツ社会統計学での悉皆調査(全数調査)

不勉強で文献を追っていないのですが,ドイツ社会統計学のMayrは,「代表法(標本調査)」を用いることに反対していたようです(Hertz p.221).戦中までの統計学は社会統計学が主流でしたが,その流れからか,悉皆大量観察(全数調査)のほうが推奨されていたようです(たとえば,田井 1935,p.25).このあたりの話は,日本語論文も多くあるようですが,不勉強のため,私はまったく分かっていません.

 

ドイツ社会統計学のK. Pearsonへの影響

K. Pearsonらの優生学派/生物測定学派も,ドイツ社会統計学の影響は受けており,Biometrikaの第1巻における巻頭言(Pearson 1901)では,進化を調べるには大量現象を扱う必要があると述べられています.

しかし,K. Pearsonは,悉皆大量観察(全数調査)を推奨していたわけではありません(個人的な素人考えですが,エジプト人の頭蓋骨を全部調べることや,ある地域のカニをすべて調べることや,イギリス人全員を測定することは,常識的に考えて無理なのでは?) 

 

竹内(2018)の解釈

これまで上記で述べてきたことを否定する主張もあります.私は少し混乱しています.

竹内(2018)の22章「カール・ピアソンと記述統計学」では,K. PearsonとFisherの連続性を認め,かつ,K.Pearsonが検定や推定を行なってきたことも認めながら,「…ピアソンの統計学を「記述統計学」と呼び、…「推測統計学」と対比させるのは理由のあること」と述べています(p.241).

ただし,この竹内(2018)での「記述統計学」や「推測統計学」は,現在,世間で流通している意味や用法(たとえば,記述統計学を「与えられたデータを要約するための手法」 大塚 2021, p.21とするような定義)ではないと私は解釈しています.

竹内(2018)では,「記述統計学」を,「統計的法則性や確率的法則は,現象を記述するために人間が作り上げた枠組」(竹内 2018, p.241)であるとみなす立場とし,一方,「推測統計学」を,「[統計的法則性や確率的法則は,]現象の背後にある客観的な構造を表現したものと考える」(竹内 2018, pp.241-242)立場としています.これらの定義は,「記述統計学」と「推測統計学」に対して,世間で流通している定義とは違うと思われます.

 

 

2の「統計学は科学の文法だとK. Pearsonは言った」という説について

「”Statistics is the grammar of science”, Karl Pearson」など,<統計学は科学の文法である」とK. Pearsonが述べた>と読めるようなネット情報を時々,見ることがあります.

これは,American Statistical Association(米国統計学会)のTwitterアカウントの呟き(@AmstatNews 2015)でも見られます.

他にも,日本学術会議 数理科学委員会 統計学分野の参照基準検討分科会の「大学教育の分野別質保証のための教育課程編成上の参照基準 統計学分野」報告書(2015,p.5)にて,「カール・ピアソンは、統計学を科学という言語における文法に例え、「科学の文法」とよんでいる(付録参照)。 」と書かれています(なお,「付録」では,「記述統計学」と「推測統計学」との対比が注意深く書かれていますが,前述したように,K.Pearsonの「記述」は「記述統計学」の「記述」とは違うので,このような対比でカール・ピアソンの研究を位置付けるのは曲芸的だと思われます.K. Pearsonは,相関係数標準偏差にも,当初からprobable errorを導出・計算していました.).

 

Karl Pearsonがそう思っていたこともないこともないのかもしれませんが,まずThe Grammar of Scienceの初版(1892)では統計学が扱われていないので,<「統計学は科学の文法である」とK. Pearsonは言った>とするのは,かなり曲芸的な解釈ではないかと思います.

 

この”引用”を誰が言い出したのかは,私は分かっていませんし,調べてもいません.

 

 

参考文献・参考資料

@AmstatNews, ASA (2015) Twitterでの呟き URL: https://twitter.com/AmstatNews/status/628658305167134720

Hertz, S. (2001) Georg von Mayr,  in Heyde, C.C. and Seneta, E. (ed.) Statisticians of the Centuries, Springer Seience+Business Media, 219-222

Keynes, J. M. (1921) A Treatise on Probability, Macmillan and Co.

Pearson, K. (1892: 1st ed., 1900: 2nd ed., 1911: 3rd ed.) The Grammar of Science, Walter Scott.

Pearson, K. (著者名不記載)(1902) Editorial: The Sprint of Biometrika, Biometrika, 1(1), 3-6
Pearson, K. (著者名不記載)(1903) Editorial: On the Probable Errors of Frequency Constants, Biometrika, 2(3), 273-281.

 

Pearson, K. (1912) Darwinism, Medical Progress and Eugenics (Eugenics Laboratory Lecture Series. IX.), University of London, University Laboratory for National Eugenics

Von Neumann-Spallart, F. X. (1885) Résumé of the Results of the International Statistical Congresses and Sketch of Proposed Plan of an International Statistical Association, Journal of the Statistical Society of London, Jubilee Volume (Jun. 22 - 24), pp. 284-320

 

Oxford English Dictionary(オンライン版)アクセス日: 2021-08-02

 

有賀暢迪(2012)カール・ピアソンについての邦語文献   URL: https://researchmap.jp/blogs/blog_entries/view/82550/b296f42ef7251fe85e7e132bac23f332?frame_id=664755&lang=en

伊勢田哲治(2021)大塚淳統計学を哲学する』を読む URL:http://blog.livedoor.jp/iseda503/archives/1924637.html

上藤一郎(1999)「第8章 優生学とイギリス数理統計学:近代数理統計学成立史」長屋政勝・金子治平・上藤一郎(編)『統計と統計理論の社会的形成』北海道大学図書刊行会

大塚淳(2021)『統計学を哲学する』名古屋大学出版会

呉文聡(1906)『純正統計学丸善国会図書館デジタル URL: https://dl.ndl.go.jp/info:ndljp/pid/805661/20

田井要助(1935)『統計学講義案』中央大学教務課 国会図書館デジタル URL: https://dl.ndl.go.jp/info:ndljp/pid/1274316/16

 

竹内啓(編)(1976)『統計学の未来:推計学とその後の発展』東京大学出版会

竹内啓(2018)『歴史と統計学:人・時代・思想』日本経済新聞出版社

長屋政勝(1982)「第1章 K.ピアソンと記述統計学:有意性検定前史」高崎夫・長屋政勝(編)『統計的方法の生成と展開』産業統計研究社

日本学術会議 数理科学委員会 統計学分野の参照基準検討分科会(2015)「大学教育の分野別質保証のための教育課程編成上の参照基準 統計学分野」報告書 URL: http://www.scj.go.jp/ja/info/kohyo/pdf/kohyo-23-h151217.pdf

日本数学史学会編(2020)『数学史事典』丸善出版

TwitterでのNeyman(1934)に対する事実誤認の訂正

Twitterで私が呟いた以下のスレッドが,事実誤認の可能性が非常に高いので訂正いたします.

 

 

まだ誤解している点があるでしょうが,事実誤認の可能性が非常に高いので,このブログ記事にて訂正します.

以下で日本語訳を記していますが,急いで訳したので,誤訳があると予想されます.しかし,大まかなイメージはつかめると思います.

本文でイタリック体のものはボールド体にしています.また,私の方で補足した部分は,角括弧[]で囲んでいます(ただし.原文にある数式で区間を示す角括弧も,そのまま角括弧を用いています).

 

上記の一連のつぶやきでは,次のような事実誤認を私はしました.

  1. Neyman(1934)にて信頼係数をNeymanは「確率」と呼んでいたように書きましたが,実際にはNeymanはあえて「確率」とは呼ばす「信頼係数」と呼んでいました.
  2. Neyman(1934)にて用語上の議論がなかったものと思って書いてしまいましたが,実際には用語上の議論(「信頼係数」か「フィデューシアル確率」か)もありました.

 

Neyman(1934, p.623)において,Neymanは「信頼係数」と「確率」は同義ではないと述べたと記録されています.

一方,Fisherは,「フィデューシャル確率」は確率なのだから「係数」と呼ばず「確率」と呼んだ,と返答したと記録されています(Neyman 1934, p.617).

このように,Neyman(1934)で記録されている発表にて,信頼係数を「確率」と呼ぶか,「係数」と呼ぶの議論がありました.

 

以下,該当すると思われる部分を引用いたします.

Neyman(1934)での信頼係数の説明

まず,Neyman(1934, p.562)には,次のように述べられています.

拙訳「この解決の型は,ある種の区間を決めることで構成される.その型を,私は信頼区間と呼ぶことを提案する(付録 I を参照).信頼区間では,推定される母集団特性値が含まれると言明することの誤りの確率が, \epsilon以下になると仮定する.ここで, \epsilonは,0 <  \epsilon < 1 である任意の値であり,前もって決められる.この数値 εを,私は信頼係数と呼ぶ.」(Neyman 1934, p.562) 

 

この文章では「誤りの確率が, \epsilon以下になる」と述べられているだけであり, \epsilon 1-\epsilonを「確率」とは呼んでいません.さらに,この \epsilonの値は,「前もって選択される任意の値」と述べられています.この文章はTwitterにて引用した部分ですが,私は誤読していました.この文章だけでも,信頼係数は,分析者によって予め定められる基準値であり,確率そのものとは違うとNeymanが述べていると読めます.

 

さらに,Neyman(1934, pp.589-590)では,次のように述べています.

拙訳「 \epsilonの値を,この値はまったく任意に選ばれるものであるが,「信頼係数」と呼ぶことを私は提案する.もし, \epsilonとして例えば0.99を選び,全てのありうる xに対して[先ほどに]定義した特性を持つような区間 [\theta_1(x), \theta_2(x)]を見つけたならば, \theta_1(x) \theta_2(x)の間に \thetaが 含まれるという申し立てに対して99%の信頼があるということによって,その立場を大まかに述べることができるだろう. \theta_1(x) \theta_2(x)の数値は,R.A. Fisherが \thetaのフィデューシャル限界と呼んだものである.「フィデューシャル」という言葉は,「フィデューシャル確率」の考えと関連づけられているが,その「フィデューシャル確率」という用語は,すでに言及したように誤解を引き起こした.また,「フィデューシャル確率」という用語は,実際に,通常の確率概念と区別できない.私は,その用語を使うのを避け,区間 [\theta_1(x), \theta_2(x)]を,信頼係数 \epsilonに対応した信頼区間と呼ぶことを選ぶ.」(Neyman 1934, pp.589-590)

  

このように,意図的に,「確率」や「フィデューシャル確率」という用語を避け,あえて「信頼係数」という用語を用いた理由が述べられています.

 

このNeymanの発表に対して,Fisherは次のように返答したと記録されています(Neyman 1934, p.617).

拙訳「この研究の注目すべき点は,それはNeyman博士の論文を素晴らしい研究の例にならしめているものであるが,Fisher博士がフィデューシャル確率と呼んでいたものを演繹した点である.Neyman博士は,この用語を使わず,この用語が誤解されていると述べている.彼は代わりに「信頼係数」という用語を用いた.フィデューシャル確率という言葉があらゆる誤解を生じさせていると思っている点でNeyman博士が誤解していると,Fisher博士は思った.しかし,彼[Fisher博士]は,該当の論文[おそらくFisherの1930年論文]には,そのような兆候は見つけられなかった.Neyman博士が述べた「それ[フィデューシャル確率という言葉]は,実際に,通常の確率概念と区別できない」という点に,Fisher博士は同意した.そして,そのことは,係数ではなく確率とそれを呼んだことの理由のように彼[Fisher博士]は思えた.彼[Fisher博士]は,それがフィデューシャルな推論によって推測される確率であることを示すために,最初から,フィデューシャルという言葉で修飾した.Neyman博士は,それを信頼という言葉で修飾した.どうやら間違いなく,それらの意味は同じである.彼[Fisher博士]は confidence(信頼)を形容詞として用いることを否定するのを希望しない.Bowley教授が気づかせてくれたように,「confidence trick」(信用詐欺)という言葉で,人々はそれをよく知っている.それでも,フィデューシャルの方が,純粋に形式的な理由から,より良い形容詞であろう.」(Neyman 1934, p.617)

このように,Fisherは信頼係数(フィデューシャル)は,それは確率なのだから,「係数」ではなく「確率」と呼んだので問題がないことを主張しています.

 

そして,Neymanは次のように返答したと記載されています(Neyman, p.623).

拙訳「議論の中で,「フィデューシャル確率」という用語の代わりに「信頼係数」という用語を用いたと仄めかされた.これは,明らかに誤解である.信頼係数という用語は,確率という用語と同義ではない.それ[信頼係数]は,ある特定の行動規則を適用した時に正しくなる確率に対して,任意に選択された値である.信頼係数概念と確率概念との関係は,(もしも,「価格」は,ある商人によって固定されたお金の特定の量であるという定義を受け入れるならば)「価格」概念と「お金」概念の関係に似ている.おそらく,より良い喩えは,「利率」と「お金」という言葉であろう.この類比は,人々が予想するよりも,表面的なものではない.銀行は,ある特定の利率で運用している.それはやや長期に渡り一定に固定されている.この一定性によって,「利率」という用語が導入された.この論文で述べた推定問題の新しい型における確率的言明の妥当性は,信頼区間のシステムを永続的に用いることに依存している.(ここの区間ではなく)全体としてこのシステムは,我々の予想が正しいという固定された確率に対応する.その確率のこの値を示すのに,特別な用語を与えることには,明確な利点が確実にある.それは[信頼係数という用語を与えること]は,例えば,ある種子検査場は信頼係数0.95で運営されているなどの有用な表現をもたらしてくれる.」(Neyman, p.623) 

  

この文章からも,Neymanが「フィデューシャル確率」ではなく,「信頼係数」という用語をかなり意図的に導入したことが分かります.これらの喩えから想像すると,「信頼係数」という用語を導入することにより,<ある程度の長期間にわたり固定された基準値>という側面を強調したかったのだと思われます.

ある道路を走っている自動車の速度で喩えるならば,「確率」は実際に走っている自動車の速度であり,「信頼係数」は各道路の制限速度,ということだと思います.制限速度が50km/hでどの自動車もその制限速度を必ず守れば,そこで走っている自動車は50km/hになります.

<「信頼係数」0.95を長期間,研究者が守っていれば,その手続きで得られる判断が誤る「確率」は0.95(もしくは0.95以下)になる>という関係が,「信頼係数」と「(誤りの)確率」の関係だと思われます.

 

Neyman(1934)の区別に沿った現代数理統計学の教科書における説明

現代数理統計学でも,例えば,少なくとも以下の2つの教科書では,「信頼係数」と「誤りの確率」は分けて定義されていると思われます.

Casella and Berger(2002:2nd ed., p.418)では,確率信頼区間が真のパラメータを含む確率を被覆確率(coverage probability),パラメータθに関する被覆確率の下限を信頼係数と定義しています.

久保川(2017, p168)では,両者を「カバレージ確率」と「信頼係数」と別々に定義しています.

信頼区間にまつわる他の議論

 Twitterでの一連の呟きでも述べましたが,Fisherのフィデューシャル限界と,Neymanの信頼区間での解釈上の違いとしては,観測信頼区間(信頼区間の確率変数を実現値に置換したもの)に対する解釈だと思われます.これについては,機会と時間があれば,別のブログ記事でまとめたいと思っています.

 

引用文献

Neyman, J. (1934) On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Journal of the Royal Statistical Society, 97(4), 558-625.

参考文献

久保川達也(2017)『現代数理統計学の基礎』(共立出版

Casella, G. And Berger, R. L. (2002) Statistical Inference, 2nd ed., Books/Cole, Cengage Learning

巷の慣習や教科書での統計的検定の扱いに対する先行研究

このブログ記事に対する責任は私個人だけに記します.所属組織は一切の責任を負いません.

 

このブログ記事は,次に黒木さんの呟きに対するリプライです.

 

 

先日のブログ記事もそうですが,今回の内容も,テキサス狙撃集の誤謬,もしくは,遡及的再集合化になっていると思います.話半分で聞いてください.

 

Fisherの1922年論文 On the Mathematical Foundations of Theorical Statistics では,統計学の問題を,特定(specification)の問題・推定の問題・分布の問題に分けました.しかし,特定の問題はわずか1段落で話が終わっています.

その部分では,主にKarl Pearsonの業績が紹介されており,色々な分布型の統計表を整備した,歪んだ分布に対してもPearson型分布族を提案し,カイ2乗適合度検定を提案したといった3点が,特定の問題に対するKarl Pearsonの貢献として述べられています.

1922年論文でも母集団が仮説的であることは強調されていると思いますが,統計学が普及していくにつれ,信頼区間などの推定の問題を話す時に,いつからか,特定の問題(これは1922年論文でも軽く述べられているだけですが)や,母集団の仮想性が忘れられたのかもしれません.

 

巷に普及した統計学の慣習に関しては,これまで,心理学のGigerenzer先生による主張が私個人は納得していました.Gigerenzer先生は,特に心理学の分野では1940〜1950年ぐらいの間に,Fisherの有意性検定とNeyman(-Pearons)の仮説検定を(悪い意味で)ハイブリッドした形式が広がったという見立てです.そして,そのハイブリッド型検定方式は,匿名化されており,FisherやNeymanの名前を出さないで教科書で教えられていった,という見立てをGigerenzer先生はしています.

 

統計学の教科書については,Huberty(1993) Historical Origins of Statistical Testing Practices: The Treatment of Fisher Versus Neyman-Pearson Views in Textbooks,  The Journal of Experimental Education, 61(4), 317-333という論文があります.

 

これら両者は,Fisherの有意性検定と,Neyman(-Pearson)の仮説検定を対比させています.両者とも,いくつか私の考えと違う点はあります.両者とも,Fisherは連続的なp値で,Neyman(-Pearson)は固定的なαという分類をしています.しかし,<元々,Fisherは,5%などを閾値として判断することを唱えていたが,後期にNeyman(とE. Pearson)を批判するようになって,固定的な有意水準を批判するようになった>という,Lehmann (2011) Fisher, Neyman and Creation of Classical Statistics, Springerでの見立ての方が私は納得します.

 

私にはFisherとNeymanとの見解の違いは重要そうに見えるのですが,黒木さんの主張は(私なりに理解すると),そのようなFisher v.s. Neymanの対立よりも,いずれの立場であっても「モデル内確率」で検定や信頼区間などが導出されている点が重要だという主張だと思います.

私の狭い観察では,Fisher v.s. Neymanの軸ではなく,「モデル内確率」に注目して,巷の慣習や教科書における検定や信頼区間を調査した研究は,日本語圏や英語圏などにはたぶんないのではないかと思います.統計教育や教科書に関しては,私自身のかなり狭い範囲でしか分からず,また,私自身はかなりの偏見の持ち主ですので,現状把握ができていません.何かしらの体系的な文献調査をすれば,統計教育や教科書での「モデル内確率」の扱いについて,より現状把握ができると思いますが,そこまでの時間が私にはありません.なお,少なくとも私個人は,「モデル内確率」と強調することはありませんでした.また,あくまで個人的な感覚ですが,少なくともハウツー本では,「モデル内確率」を全面的に押し出して書かれてはいないと思います.

 

検定や信頼区間の仮想性を強調するのに,「モデル内確率」という言葉を用いるのはいいアイデアだと私は思います.言葉で表されていない概念は,伝言ゲームをしていくうちに,忘れられがちのような気がします.なお,私個人は,先日のブログ記事の最後に書いたような点にも注意していきたいと思いました.

 

元のtjo先生による問題提起は,非常にごく細かい点は気になりますが(例えば,アンケートの選択肢に「確率でもあり,割合でもある」と「確率でも割合でもない」を設けるか,「どちらかと言えば確率」や「どちらかと言えば割合」との中間的な選択肢を設けても,面白かったと思います),私を含めたみんなが議論しやすい身近な話題を提供してくれたと思っています.基本的に,実用や応用の場面で,確率を頻度論的に解釈した方がうれしいか,合理的な信念として解釈した方がうれしいかをtjo先生は問題提起したかったのだと私は解釈しました.

なお,95%信頼区間の「95%」を「観測された信頼区間に真のパラメータが含まれる確率」や「観測された信頼区間に統計量が含まれる確率」と解釈するのを誤解とする教科書はこれまでにもいくつかあります.例えば,Snedecor1946:4th ed.Statistical Methodsp.29でも,触れられています(第4版だけしかチェックしてていません).これも私の個人的な感覚ですが,信頼区間の信頼係数については,Fisherの推測確率(fiducial probability)による解釈は統計家にも誤解だとされて,Neyman流解釈が主流になっていったのだと思います.