<95%信頼区間の「95%」は確率ではない>と主張するとしたら,どのような理由があるか考えてみました

このブログでは,TJOさんによる以下の記事を踏まえて,<95%信頼区間の「95%」は確率ではない>と主張するとしたら,どのような理由が挙げられるかをちょっとだけ考えてみました.

95%信頼区間の「95%」の意味 - 渋谷駅前で働くデータサイエンティストのブログ

 

<95%信頼区間の「95%」は確率ではない>と主張するとしたら考えられる理由として,次の3つを挙げます.

  1. その「95%」は,「確率」ではなくて,「確率の下限」だ
  2. 実現信頼区間にパラメータが含まれる確率は,95%ではなくて,0%か100%だ.だから,わざわざ「信頼係数」と呼ぶのだ.
  3. 「95%」は確率ではなくて,「チャンス」や「傾向(propensity)」と言われているものだ.

1. その「95%」は,「確率」ではなくて,「確率の下限」だ.

たとえば手元にある久保川達也(2017)『現代数理統計学の基礎』p. 169によると,信頼係数 1 - \alphaの信頼区間 [L({\bf X}), U({\bf X})]は,任意のパラメータ \thetaに対して,

 P_\theta(\theta \in [L({\bf X}), U({\bf X})]) \ge 1 - \alpha

を満たすものと定義されています.不等号の左辺は,カバレージ確率と呼ばれています.左辺は確率ですが,右辺はその確率の下限です.喩えるならば,左辺が道路を走っている自動車の速度だとすると,右辺は法定速度です(法定速度は下限ではなく,上限を設定することが多いですが).

この定義だと,例えば,信頼区間 [-\infty, +\infty ]とすれば,カバレージ確率が100%となり,この無意味なものも「95%信頼区間」となってしまいます.そのため,世の中では,カバレージ確率がピッタリ95%となるように信頼区間を構築するよう努力することが多いです.そして,ごく簡単なものであれば,ピッタリ95%になるものは存在します.しかし,ごく簡単なものでも,二項分布・超幾何分布・Poisson分布などの離散型確率分布では,カバレージ確率をピッタリ95%とすることが(確率化を行わない限り)できません.よって,ごく簡単な場合でも特に扱っている確率分布が離散型確率分布の場合には,「いやいや,確率じゃなくて,確率の下限ですよね」という主張は説得力があるのではないでしょうか.

なお,離散型確率分布の場合に,カバレージ確率をピッタリ95%にできないことは,FisherもNeymanも十分に知っていたと思われます(そのため,Fisherのfiducial limits論文では,連続型確率変数であることを断っていました.また,Neymanも,ほぼ最初から上記のようなカバレージ確率に対する不等式で信頼区間を定義していました).

なお,世の中では場合によっては,近似が使われる場合もあります.その場合は,「確率そのものじゃなくて,確率を近似したものですよ」と断る必要があるかもしれません.

 

2. 実現信頼区間にパラメータが含まれる確率は,95%ではなくて,0%か100%だ.だから,わざわざ「信頼係数」と呼ぶのだ.

Casella and Berger(2002) Statistical Inference:2nd ed. p.435 に倣って,ここでは信頼区間のうち, [L({\bf X}), U({\bf X})]と上下限が確率変数であるものを確率信頼区間(random interval),それに {\bf X}の実現値 {\bf x}を代入した [L({\bf x}), U({\bf x})]を実現信頼区間(realized interval)と呼ぶことにします.

話を簡単にするため,この節では P_\theta(\theta \in [L({\bf X}), U({\bf X})]) = 1 - \alpha と,信頼係数がカバレッジ確率にピッタリ一致しているとします.

Neyman流信頼区間では,パラメータは固定された定数とみなします.その場合,実現信頼区間のカバレージ確率  P_\theta(\theta \in [L({\bf x}), U({\bf x})])は,95%ではありません.0%か,100%かのいずれかになります.

喩えとして,竹村彰通(2020)『新装改定版 現代数理統計学』学術図書出版のp.207で述べられている話を取り上げます.公平なコインを投げるとします.コインを投げる前は,コインが表となる確率は50%です.一方,コインを投げた後は,それを手で覆い隠していたとしても,コインは表であるか裏であるかのいずれかなので,コインが表である確率は0%か100%です.

実現信頼区間のカバレージ確率  P_\theta(\theta \in [L({\bf x}), U({\bf x})])は,0%か100%であり,95%ではないので,この95%を「確率」と呼ぶと,何かと誤解を招きそうです.誤解を避けるために,この95%を「信頼係数」という特別な名前で呼ぶという工夫は説得力があるのではないでしょうか.

なお,実現信頼区間に対する以上の解釈はNeymanによるものです.Fisherは,ある条件のもとで(例えば,連続型確率分布で,単一パラメータで,単調尤度である場合), \thetaに対する確率的言明が行えるとして(少なくとも形式的にはパラメータに対して累積分布関数を定義できるとして),実現区間における95%にさえも「確率」という呼び名を与えています.Neymanの考えに従えば,このようなFisherの考えは到底,納得できないでしょう.

竹村(2020)では,前述の話の続きとして,コインを投げた後でも,手で覆ってコインが表が出たか裏が出たかが分からなければ,それは依然としてコインが表である確率は50%と考えることもできるかもしれない,という喩えがあるのですが,これはおそらくFisherの考えだと思われます.

 

3. 「95%」は確率ではなくて,「チャンス」や「傾向(propensity)」と言われているものだ.

現在においては,教科書的には,いくつかの数理的な性質を持つ関数を「確率」と呼ぶことが多いと思います.

しかし,いざ,実用の出来事に「確率」を使おうとすると,その公理的な「確率」を世俗的に解釈する必要が出てきます.現在の世の中には,まったく別に解釈しているのに,公理的確率の数理的性質は満たしているものがいくつか(沢山?)あります.

現在においては,公理的確率という揺るぎない合意があるので,好き勝手に確率を人々は解釈できるのだと私は思います(公理的確率の公理さえ満たされていれば,いろんなものが「確率」になれる).なお,Ian Hackingは,『確率の誕生』にて,1650年頃の"確率の誕生時"から偶発的確率と認識論的確率の2つの解釈が同時に存在していたと主張しています(Ian Hackingのその主張に対しては強い批判がいくつかされています).

話が逸れました.理由がなんであれ,実用上では,世の中には,確率に対して複数の解釈があります.そのなかでも代表的な2つは,「信念の度合い」を示すSavage流の主観的確率と,「無限の繰り返し無作為抽出での割合」を示すNeyman流の頻度的確率だと思います.

両者とも「確率」と呼ばれているのですが,これらを区別して呼ぼうという提案も度々されてきたようです.例えば,ポアソンとクールーノーは,認識論的確率を「確率」,偶発的確率を「チャンス」と呼ぶように提案したそうです(イアン・ハッキンング 広田すみれ・森元良太訳『確率の出現』翻訳書p.20).また,Lindley & Phillips (1976). The American Statistician, 30(3), 112-119 では,主観的確率を「確率」,頻度的確率を「傾向(propensity)」と呼んで区別しようとしています.

 

さて,久保川本などに出ている信頼区間の左辺は,おそらくは公理的な確率であり,それが頻度的確率であるか,主観的確率であるかは拘っていません.しかし,「信頼区間」という名付け親であるNeymanは,頻度的な解釈に拘りました.つまり,「同一母集団から無限に無作為抽出して,その1回1回で95%信頼区間を計算した時に,その信頼区間に固定されたパラメータが含まれる頻度的確率が95%以上だ」という解釈にNeymanは拘りました.

現在,信頼区間の解釈としてもっぱら流布している解釈はNeyman流です.よって,主観的確率と頻度的確率の区別が重要だと思っており,「確率」を主観的確率という意味でもっぱら用いている人々の間では,95%信頼区間の95%には「確率」とは違う名前を与えた方がいいのかもしれません.

 

なお,上記では,個人的確率と頻度的確率だけを対比させましたが,Kass (2011). Statistical Science, 26(1), 1-9などでは,いずれの流派であっても,想定した理論的世界での確率計算であることを強調した方がいいという主張もあります.

 

 

<「統計学は科学の文法である」とKarl Pearsonは言った>および<K.Pearson=記述統計 vs R.A.Fisher=推測統計>という言説に関して

SAS Institute Japan株式会社/JMPジャパン事業部) 小野裕亮

 

このブログ記事のすべての責任は小野個人だけにあります.所属組織には一切の責任はありません.また,Theodore Porter先生およびStephen Stigler先生の許可を得て,両先生のメールを公開していますが,このメールを公開したことに伴うすベての責任も,小野個人一人だけにあります.

 

以前,次のようなブログ記事を書きました.

tarotan.hatenablog.com

このブログ記事では,以下の2つの噂に対しての,Theodore Porter先生とStephen Stigler先生の意見とアドバイスを紹介します.両先生から,メール内容を公開してよいとの許可は得ています.

  1. 統計学は科学の文法である」とKarl Pearsonはどこかで書き残しているのか?
  2. 「K. Pearson=記述統計学 vs  R.A. Fisher=推測統計学」という対立図式は,米国でも語られているのか?

1についてはPorter先生だけに,2についてはPorter先生とStigler先生に尋ねました.とても貴重な意見とアドバイスだと思いますので,誤字なども修正せず原文そのままを以下に引用します.

このブログ記事を読むような方には説明不要だと思いますが,Theodore Porter先生とStephen Stigler先生は統計学史の専門家です.

 

Porter先生への私の質問メール

Dear Prof. Porter, 

 

I am Yusuke Ono (Mr.), tester at SAS Institute Japan. I asked about your book review for the Lady Tasting Tea in 2016, and about probability in von Kries in 2019.

 

I am checking some kind of urban legends about Karl Pearson, but I completely stuck.

Could you please give me any advice for my following two questions if you are also interested in these urban legends?

 

(1) In American Statistical Association’s Twitter on Aug. 5th 2015, they “quoted" the word by Karl Pearson as below.

 

“Statistics is the grammar of science.” — Karl Pearson       

#statquotes

 

The link of this tweet is https://twitter.com/AmstatNews/status/628658305167134720

 

As far as I search, Prof. Sastry G. Pantula also said “As Karl Pearson wrote, “statistics is the grammar of sicence."” in AmStat News March 2008. 

The link of the newsletter is https://magazine.amstat.org/wp-content/uploads/2008an/march08.pdf

 

I have searched the origin of this word for more than two years, but I still cannot find it.

 

I know “Grammar of Science” is the book title by Karl Pearson, and as you wrote  “THE STATISTICAL GRAMMAR” (on pp.211) section in your book, Karl Pearson: The Scientific Life in a Statistical Age, there must be a strong connection between K.Pearson’s scientific methods and statistics. But I cannot find a word like “Statistics is the grammar of science” or “Statistics is the one of the grammars of science” in Karl Pearson’s writings. If you know the origin of this quote,  I would like you to tell it to me.

 

(2) In some textbooks for statistics,  statistics is classified into “descriptive statistics” and “inferential statistics”.  In some Japanese literatures, statistics by Karl Pearson is said as the old “descriptive statistics”, and statistics by R.A. Fisher is said as the new “inferential statistics”.

Is this labeling for Karl Pearson and R.A. Fisher also popular in the U.S.?

 

I know that in Grammar of Science, Karl Pearson claims that “That all science  is description and not explanation”. But this is a contrast between “description” and “explanation”, not a contrast between “description” and “inference”, and he developed and used many inferential statistical methods in his papers.

 

Best Regards,

 

Yusuke Ono (Mr.)

JMP Japan Group

SAS Institute Japan

 

Porter先生からの返信メール

Dear Yusele Onoe, I will say first that Stephen is a betterer authority than I am on your second question, but I think you are quite correct in what you say--indeed you have hit the nail on the head (as we say).  Fisher I think developed a sense of statistical inference that went well beyond Pearson, but at the same time he [ushed new forms of statistical inference that were largely unfamiliar to the statistics organizations like the ISO.

 

As for the identity of statistics with scientific method, I do not believe that he ever said this, though he certainly did come to see statistics as fundamental to science as a method.  We must not forget however that he wrote the Grammar of Science just BEFORE his turn to statistics, and he definitely was not thinking of statistics in his formative writings on scientific method.  I would not exclude the possibility that he could have said "statistics is scientific method" or the like, but I have never seen this, and if he had said this in print, we could surely find it from a search.

 

I hope this is helpful,

 

Theodore Porter

 

Stigler先生への私の質問メール

Dear, Prof. Stigler

 

I am very sorry for this sudden e-mail. I am Yusuke Ono (Mr.), tester at SAS Institute Japan.

 

Although I am just an amateur, I am interested in “modern” statistical history as a person who works for statistical software.

 

 I would like to ask a question. I have asked the same question to Prof. Porter, and he advised that you are better authority.

 

In some textbooks for statistics,  statistics is classified into “descriptive statistics” and “inferential statistics”.  In some Japanese literatures, statistics by Karl Pearson is said as the old “descriptive statistics”, and statistics by R.A. Fisher is said as the new “inferential statistics”.

Is this labeling for Karl Pearson and R.A. Fisher also popular in the U.S.?

 

I know that in Grammar of Science, Karl Pearson claims that “That all science  is description and not explanation”. But this is a contrast between “description” and “explanation”, not a contrast between “description” and “inference”, and he developed and used many inferential statistical methods in his papers.

 

I think I understand that Fisher developed new interpretations for some existing methods. For example, he interpreted newly the posteriori distribution with uniform prior as “likelihood” in 1922 (just one hundred years ago).  He also proved some statistics are distributed as  t-distribution. He also suggested “fiducial” limits. These interpretations and methods must be Fisher’s works, but I feel it’s strange to use the contrast, “descriptive” v.s. “inferential” for K.Pearson v.s. Fisher.

 

I am also sorry for my poor English.

 

Best Regards,

 

Yusuke Ono (Mr.)

JMP Japan Group

SAS Institute Japan

 

Stigler先生からの返信メール

Dear Yusuke Ono,

 

That is not a labeling I am familiar with and I do not think it is particularly accurate. The relationship is more complex. Fisher built upon a framework Pearson had employed and both did inferential statistics. I attach two papers that probably are more than you are looking for but easy to send.

 

Regards,

 

Stephen Stigler

なお,返信メールで述べられている2つの論文は,以下の論文です.

Stigler, S. (2005) Fisher in 1921. Statistical Science. 20(1), 32-49.

Stigler, S. (2008) Karl Pearson’s Theoretical Errors and the Advances They Inspired. Statistical Science.  23(2), 261-271.

この後,Fisherおよびその周りの人々による最尤推定の議論については,以下の論文をすすめてくださいました.

Stigler, S. (2007) The Epic Story of Maximum Likelihood. Statistical Science. 22(4), 598-620.

 

マグネロ[文]ルーン[絵]『マンガ 統計学入門』日本語訳で個人的にほんの少しだけ気になった点

このブログ記事の責任はすべて筆者個人(小野裕亮)だけにあります.所属組織は一切,関わっておらず,いかなる責任も負いません.

 

はじめに

マグネロ[文] ルーン[絵]神永正博[監訳]井口耕二[訳]『マンガ 統計学入門:学びたい人のための最短コース』は,Introducing ... シリーズにおける統計学入門書となっています.... for beginnersシリーズと同様,独特なタッチのイラストとともに,統計学史の立場から統計学が説明されています.

著者のEileen Magnello先生は,特にKarl Pearsonに関する研究の第一人者の一人であり,本書でも特に20世紀初頭の記述が充実しています.

かなり癖が強いかもしれませんが,初等統計学をかじった人で,そこで使われる統計量や手法がどんな歴史を持っているかに興味がある人には,おすすめしたい本です.かなりカジュアルな本であり,イラスト入りなので,読みやすいです.

日本の翻訳書は,ブルーバックスシリーズから出版されていることもあり,価格も非常にお手頃です.

このブログ記事では,同翻訳書において,個人的に少しだけ気になった箇所(非常に細かいこと)を3つ挙げます.

いくつか断っておきたい点があります.

  • 第1に,以下に述べることはあくまで個人的な好みの問題です.
  • 第2に,世間一般において,他人の「間違い」や「誤解」を指摘する人を見かけたら,まずは,その指摘している人(つまり,私)が間違いや誤解をしていることを疑うのが無難だと私は思っています.以下の記述のほとんどが間違っている可能性もあります.
  • 第3に,たとえ間違いがあったとしても,私ぐらいの英語力であれば,日本語翻訳を読むほうがはるかに頭に入ってきます.このような面白くて,かつ,癖のある本を翻訳してくださったことに,深く感謝します.
  • 第4に,私自身は,同書を翻訳できる技量を持ちあわていません.私が翻訳したら,一生終わらなかっただろうですし,訳せたとしても誤訳ばかりになっていたと思います.

以上の注意点に留意しながら,お読みください.

なお,初版第3刷をもとにしています.

 

個人的に気になった点

  • P.88「大衆の現象」となっているのは,原語では”mass phenomena”で「大量現象」が定訳だと思います.
  • P.89の「平均を使って度数分布を標準化し」は,「標準的な度数分布を導出する方法を考案することで」ぐらいの意味だと思います(原文の”means”は「平均」ではなく,「方法」や「手段」ぐらいの意味).
  • P.90の「[カール・]ピアソンが「正常群」という用語を代替するものとして「母集団」という言葉を導入し、1903年には母集団と標本の関係を明らかにしました」は,原文では[Karl Pearson] aligned population with sample in 1903”であり,「1903年には,「標本」(sample)と対比させて,「母集団」(population)という用語を使うようになりました」ぐらいの意味だと思います.ちなみに,余談ですが,統計学”population”という用語を持ち出したのは,Galton1877)が始まりだとするのが定説だと思います(それまで,人間の集団にしか使われていなかった”population”という用語を,Galton(1877)では,スイートピーの種の集まり(およびGaltonボードでの小粒 pellet の集合)を指すのに使いました.Galton(1877)でも”sample”という用語は登場しますが,本書の主張は,おそらく,現代的な意味になるまで綺麗に数理的に対比させたのはPearson(1903)とするのが妥当だ,ということだと思います.

以上です.

このような面白い本を日本語翻訳してくださった方々に深く感謝いたします.

 

 

スティグラー著『統計学の7原則』日本語訳で個人的にほんの少しだけ気になった点

この記事の内容に対する責任は,すべて筆者個人(小野裕亮)だけにあります.所属組織は,一切関わっておらず,いかなる責任も負いません.

 

はじめに

スティグラー著(森谷博之・熊谷善彰・山田隆志訳)『統計学の7原則:人びとが築いた知恵の支柱』では,統計学の概念のうちで重要と思われる7つを取り上げ,その歴史を紹介しています.次の7つのテーマに関する歴史が,カジュアルな雰囲気で解説されています.

  1. データの要約
  2. データの情報量
  3. 尤度
  4. 内部比較(外的基準をもたずに数値を解釈する方法)
  5. 回帰
  6. (実験計画などの)計画
  7. 残差

著者のStephen M. Stigler先生は,近代統計学統計学史の第一人者の一人です.本書は,統計学を少し知っている一般の方向けに,リラックスした雰囲気で書かれています.統計学を学んだ方で,上記のような7つの概念がどこから来たのかに驚異がある方で,統計学史に足を踏み入れてみたい方には最良の書になっているのではないかと思います.

個人的に,日本語翻訳書において気になった点がありました.本ブログでは,その気になった点をいくつか挙げたいと思います.

 

いくつか断っておきたい点があります.

  • 第1に,以下に述べることはあくまで個人的な好みの問題です.
  • 第2に,世間一般において,他人の「間違い」や「誤解」を指摘する人を見かけたら,まずは,その指摘している人(つまり,私)が間違いや誤解をしていることを疑うのが無難だと私は思っています.以下の記述のほとんどが間違っている可能性もあります.
  • 第3に,たとえ間違いがあったとしても,私ぐらいの英語力であれば,日本語翻訳を読むほうがはるかに頭に入ってきます.このような面白くて刺激的で,かつ,必ずしも容易ではない本を翻訳してくださったことに,深く感謝します.
  • 第4に,私自身は,同書を翻訳できる技量を持ちあわていません.私が翻訳したら,一生終わらなかっただろうですし,訳せたとしても誤訳ばかりになっていたと思います.

以上の注意点に留意しながら,お読みください.

なお,初版第1刷をもとにしています.

 

第1章

  • P.35の「1週間ヘアブラシを無くした誰か」は,「やぶの中で1週間,道に迷った人」ぐらいの意味だと思います(”be lost in the brush”の”brush”は,やぶや雑木林ぐらいの意味だと思います).
  • P.40の「略式の検査も通さない最新の計算手続き(アルゴリズム)」は,「ちょっと見ただけでは理解できない最新のアルゴリズム」ぐらいの意味だと思います.

 

第2章

  • P.50の「効用と私たちの知識にある確率誤差の逓減費用」は,「私たちの知識における確率誤差(probable error; 蓋然誤差,公算誤差)を減らすことの効用と費用」ぐらいの意味ではないかと思います.
  • P.50の「おもりが上にあるときの実験と下にあるときの実験」は,「重いほうのおもりが上にあるときの実験と下にあるときの実験」だと思います.
  • P.52の「有効な標本数」は,原文では「effective sample size」であり,これは技術用語なので,直訳して「有効標本サイズ」/「有効サンプルサイズ」などと訳したほうが無難な気がします.
  • これは原文でもそうなのですが,P.54のFisher情報量の式は,2乗は括弧のなかに入っていた方が誤解がすくない気がします(「スコア関数の2乗」の期待値であって,「スコア関数の期待値」の2乗ではないため).
  • P.54で「data set」への訳を「データ集合」としていますが,「データセット」が定訳ではないかと思います.

 

第3章

  • P.57の「気のない慰め方をする」は,「気のない褒め方(ほめかた)をする」のタイポではないかと思われます.
  • P.58のArbuthnotの論文名における”argument”を「証明」と訳していますが,「議論」もしくは「根拠」ぐらいの意味だと思います.
  • P.59の「アーバスノットはこの神の摂理という選択肢の計算はしていない」は,「アーバスノットは,「神の摂理がある」という対立仮説のもとでの確率は計算していない」ぐらいの意味だと思います.
  • P.61の 「非常にまれな事象が生じたか、あるいは確率分布の理論が正しくないのか」における「確率分布」は”random distribution”の訳だと思いますが,「確率分布」は技術用語であり”probability function”の定訳であるため,「非常にまれな事象が生じたか,あるいはランダムな分布であるという前提が真ではないか」ぐらいに訳したほうが無難だと思います.
  • P.63の「プライスがもくろんだ(そしてまず確実にベイズの意図もそこにあった)ベイズの論文のタイトル「帰納法によるすベての結論の正確な確率を計算する方法([...])」[...]は最近になって注目された」は,「プライスは(そして,ほぼ確実にベイズも),当初,論文のタイトルを「帰納法によるすベての結論の正確な確率を計算する方法」としていた.この事実は,ごく最近になって判明した」ぐらいに訳したほうが分かりやすいと思います.
  • P.66の「一連の値の限度を定義して」は,「現在のデータよりも極端であるとみなす集合を決めて」ぐらいに意訳したほうが分かりやすいかもしれません.

 

第4章

  • P.78のStudent論文の解説で,「標本数」は「標本サイズ」としたほうがよさそうです.「標本数」でも誤解は生じないとは思いますが,数理統計学に限れば,「標本数」と「標本サイズ」は訳し分けるのが慣例だと思います.
  • P.80での「結論における正当な理由のないベイジアンという用語」は,「正当な理由なくベイズ流に結果を解釈してしまっていること」ぐらいの意味だと思います.
  • P.81で,”ratio t”を,「比率 t」と訳していますが「t比」ぐらいに訳したほうがいいと思いました(”ratio”は「比」であり,rate「率」ではないため)
  • P.82で,「1915年,フィッシャーは[…]相関係数 r を発見した」は,「1915年,フィッシャーは[…]相関係数 r の分布を発見した」のタイプミスと思われます.
  • P.82の「σへの依存からスチューデントのt分布を解放した魔術をみたが,それは数学という学問の氷山の一角にすぎないと[Fisherは]みていた」は,「σによらない形でt分布が導出されるという数理的なマジックは,数理上の氷山の一角に過ぎないと[Fisherは]みていた」
  • P.83の節名にある「分散の構成要素」の原文である”variance component”の定訳は,「分散成分」ではないかと思われます.

 

第5章

  • P.95の「種のなかの遺伝的変異のしやすさが十分にあること」は原文は”sufficient within-species heritable variability”ですが,単純に「同一種のなかで遺伝子が十分にばらついていること」ぐらいに訳したほうが分かりやすいと思います.この後のページでも,各世代における正規分布の分散が,次世代でも一定であることが論じららているので,”variation”は「変異」ではなく,「variability」は「変異のしやすさ」ではなく,両方とも統計用語の「ばらつき」や「変動」ぐらいに訳したほうが分かりやすいかもしれません.
  • PP.95-100あたりで,”population”を「母集団」と訳していますが,慣習として,生物学系の話をするときには「個体群」と日本語では訳すことが多いと思います(元々は,同じ”population”ですが,推測統計では「母集団」,生物学では「個体群」と訳し分けるのが慣習です.そのような訳しわけが難しい場合には,「集団」とだけ訳す場合もあります.)
  • P.100の「図5.7の中央から下の部分では、1つは中央、1つは右という2つの代表的集団のもつ変異のしやすさの効果を概略的に示している」は,「図5.7の中央では,身長が中ぐらいの群と身長が最も高い群を例に挙げて,それらの身長が真ん中による動きを模式的に見せている.」
  • P.110の「かれ[Galton]が取り組んだ問題は…」あたりの文章は,「Galtonは,他の誰もが問題があるとは気付いていなかったであろう問題に取り組み、そして,その問題を適切に理解すれば,そこには問題はないことを示した」ぐらいの意味だと思います.
  • P..112の「偏相関に関連した…」あたりの文章は,“principal components of variance”の適切な訳が私は分かりませんでしたが,ここでは主成分分析のことを指しているのではないので, 「偏相関や多次元最小2乗に関係した関連性指標(measures of association)や,分散成分の分解を用いて」ぐらいの意味だと思いました.
  • P.118の「測定誤差」は「推定誤差」のタイポだと思われます.

 

第6章

  • P.129の「1985年」は「1885年」のタイポと思われます.
  • P.134の”just noticeable difference”は,「最小可知差異」や「丁度可知差異」と訳されることが多いようです.
  • P.136にて,”spherical symmetry”に対して「球体対称」と「球対称」と異なる訳語が割り振られています.同一の訳語を割り振ったほうがいいと思います.
  • P.137の「キアエル」(元は”Kiaer”)は,日本語では「キエール」と記されることが多いようです.
  • P.138の「研究者が資金に余裕がないという状況もあり」は,「無作為化試験を行う余裕がないと感じる場合もあるが」という意味だと思われます.

 

第7章

  • P.155の「一般線形モデル」は,「一般化線形モデル」の誤植と思われます.

 

以上です.

繰り返しになりますが,このようなとても面白い本を日本語翻訳してくださった方々に深く感謝申し上げます.

日本語で読める統計学史に関する書籍(途中:日本の統計学史に関するものは省いています.)

取り急ぎ,日本語で読める統計学史に関する書籍を,いくつか紹介します.

  • 統計学史の専門家が書いた専門書だけではなく,軽めの啓蒙書や伝記も含めます.
  • 書籍だけを挙げることにして,論文は取り上げません.
  • 翻訳書や廃版になっている書籍も取り上げます.

現在(1月31日段階)では,日本の統計学史に関する書記は挙げていません.

 

統計学史をはじめとして史学の正式な教育を私は受けておらず,趣味の範囲を超えないので,全然,網羅しきれていないと思われます.また,以下で取り上げるのは,日本語で書かれた書籍のみです.

皆さんのお勧めの書籍があれば,Twitterアカウントの@BluesNoNoまで教えてください.

 

統計学自体もあまり知らない方向けの軽めの読み物

  • Salsburg, D.S.[著], 竹内惠行・熊谷悦生[翻訳](2006:翻訳書)『統計学を拓いた異才たち』日本経済新聞出版(2010年に文庫化,原題 The lady tasting tea)

英語原著ではなく,日本語訳のほうを読むことを私は強く薦めます.また,まずは日本語の訳者あとがきを読むことを強く薦めます.大塚淳(2020)『統計学を哲学する』での同書に対する注意も読むことも薦めます.統計家によって書かれたものであり,統計学史家によって書かれたものではありません.統計業界で統計学の歴史がどのように語り継がれているかを知るための一冊だと思われます.

朝日新聞の記事にて,社会学者の佐藤俊樹先生によっても,統計学を勉強し始めるときの本として推奨されていました.また,2006年に,日本統計学会の75周年記念推薦図書の一冊に選ばれています.ただし,上記の大塚(2020)でも指摘されていますが,後述するPoter先生によって,かなり強く事実誤認を指摘されています.また,他にも,私が知る限り2つの書評にていくつか事実誤認を指摘されています.

 

  • McGrayne, S.B.[著], 富永星[翻訳](2013:翻訳書)『異端の統計学ベイズ』(原題 The theory that would not die)

私自身は,<著者が勝手に,統計家をベイズか非ベイズかに分類しているのではないか?>という疑問が晴れず,「ベイズ」 vs 「非ベイズ」の対立を大袈裟に描写しすぎではないかと感じています.ただ,インフォーマルなインタビューを数多く行なって,論文からだけでは感じ取れない統計家たちの日常での考えを垣間見れます.

 

いくつかのトピックに関する雑談を述べているものですが,統計学の歴史的出来事についても触れています.(私は,この本で,Fisherは紅茶実験の例をどこからもってきたのかについて,3つの説があることを知りました.)

 

英語圏統計学史家によって書かれた一般書の翻訳

(この節は,2022/2/6に追記しました.)

 

英語圏統計学史家が書いた(統計学をある程度は知っている)一般向けの本として以下の2冊があり,日本語にもすでに翻訳されています.

 

Karl Pearsonの研究で有名な統計学史家であるEileen Magnello先生の本は,日本語に翻訳されており,ブルーバックスシリーズから出版されています.

  • Magnello, E.[文]Loon, B. V.[絵]神永正博[監訳]井口耕二[訳](2010:翻訳)『ブルーバックス マンガ統計学入門:学びたい人のための最短コース』講談社

同翻訳書において個人的に翻訳で気になったところ(非常に細かい点)は,以下のブログ記事にて取り上げました.

マグネロ[文]ルーン[絵]『マンガ 統計学入門』日本語訳で個人的にほんの少しだけ気になった点 - Tarotanのブログ

統計学史をこれから学びたい方で,特にイギリスの20世紀前後の近代統計学に興味がある方には,強くおすすめします.

 

統計学史の第一人者であるStephen M. Stigler先生の本も一冊,翻訳されています.

  • Stigler, S. M. [著]森谷博之・熊谷善彰・山田隆志[訳](2017:翻訳)『統計学の7原則:人びとが築いた知恵の支柱』パンローリング

同翻訳書において個人的に翻訳で気になったところ(非常に細かい点)は,以下のブログ記事にて取り上げました.

スティグラー著『統計学の7原則』日本語訳で個人的にほんの少しだけ気になった点 - Tarotanのブログ

読むのには,ある程度は統計学の知識(4年生大学の学部生ぐらいの知識か?)が要求されます.現在でもよく使われている統計学の考え方や手法が,どこからやってきたのか,その歴史が概観されています.

 

安藤洋美先生の著作

もしも,20世紀初頭のイギリス数理統計学の流れに興味があり,ある程度,学部生3年ぐらいの初等数理統計学の知識があるのであれば,次の2冊をお勧めしたいです.

  • 安藤洋美(1997)『多変量解析の歴史』 現代数学社
  • 安藤洋美(1989)『統計学けんか物語:カール・ピアソン一代記』 海鳴社

安藤洋美先生は,次のような書籍も出されています.

また,いまや,この書自体が歴史的史料となっていると思いますが,次のような確率論史の本も翻訳しています(これ以外にも,後述するNeymanの伝記も翻訳しています.)

  • 安藤洋美[訳]Todhunter, I.(2002:翻訳 改訂版)『確率論史』 現代数学社(原書:History of the Mathenmatical Theory of Probability

日本の統計学者が書いた統計学史書

竹内啓先生が,以下のような本を書かれています.

  • 竹内啓(2018)『歴史と統計学』日本経済出版

同書は,2019年に第12回日本統計学会出版賞を受賞しています.

 

伝記や自伝

NeymanやGaltonには,日本語で書かれた書籍としては,次のような伝記・自伝・回想論があります.NeymanやGaltonを知らなければ,まったく面白くないでしょう.

  • [Neyman, J.] Reid, J.[著]安藤洋美・長岡一夫・門脇光也・岸吉堯[訳](1985: 翻訳)『数理統計学者 ネイマンの生涯』現代数学社(原題:Neyman: from life.あくまで個人的な感想ですが,少し訳が迷走しているところがあるかもしれません)
  • [Galton, F.] 岡本春一(1987)『フランシス・ゴールトンの研究』ナカニシヤ出版(あくまで個人的な感想ですが,批判的に書かれていないのに私はかなり驚きました.素直には読めないかもしれません.)

 

やや難しめの統計学史の専門書

統計学史の専門書として,個人的にお勧めしたいのは,次の翻訳書です.

  • 長屋正勝・木村和範・近昭夫・杉森滉一[訳]Porter, T.M.[著](1986:翻訳)『統計学と社会認識:統計思想の発展 1820-1900年』梓出版(原題:The Rise of Statistical Thinking 1820-1900)

20世紀初頭のイギリス統計学など,近代統計学の中心的な統計思考である「集団的思考(population thinking)」がどのように推移したかを追った書籍となっています.

私なりに敷衍すると,「集団的思考」とは,<個々の個体の振る舞いはランダムで規則性がないけれど,集団単位で見ると何かしらの規則性が見えるかもしれない>という前提にて,出来事を捉える思考方法だと思います.この「集団的思考」から派生して,"population" vs "sample"といった標本理論が展開されていったと思われます.

Galton-Karl Pearson-Fisherといったイギリス統計学がどのような流れから来ているのかを丹念に追っています.

数式は一切出てきません.ただ話が細かいのと,原文の英語自体が(私には)難しいのがあって,日本語でもやや読みにくいかもしれません.

私は未読なのですが,どうやら以下の本でも集団的思考に関連した話題は取り上げられており,また,すっきりとまとめられていて,読みやすいようです.

  • 池畑奈央子[監訳]柴田叔子・小林重裕・伊禮規与美[訳]原俊彦[監修]Rey, O.[著](2020:翻訳)『統計の歴史』原書房(原題:Quand le moonde s'est fait nombre)

Hacking先生が書いた統計学史関連の書籍として,以下の2冊が有名だと思います.

  •  石原英樹・重田園江[訳]Hacking, I.[著](1999:翻訳)『偶然を飼い慣らす』木鐸社
  • 広田すみれ・森元亮太[訳]Hacking. I.[著](2013:翻訳)『確率の出現』慶應義塾大学出版会

 

他にも,以下の写真のような,社会統計学系の方が書いた書籍もあります(後日,写真ではなくタイプいたします).

f:id:Tarotan:20220131014146p:plain



あと,次のような書籍もあります(安藤洋美先生のは1冊,挙げるのを忘れていました).

f:id:Tarotan:20220131014256p:plain

 

日本の統計学

歴史は,歴史そのものも重要ですが,誰が語っているのかも重要だと思われます.日本語の文献を読む場合には,日本の統計学史も知っておいた方が,より面白くなるかもしれません.後日,時間ができたときに,日本語で読める日本の統計学史についても,リストを挙げたいと思います.

 

(未完)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

単純対応分析におけるいくつかの同時布置図について

著者:Tarotan (@BluesNoNo: 小野裕亮)

同ブログにおける記事の責任はすべて筆者個人だけにあり,所属企業は一切の責任を負いません.

 

1. はじめに

1.1 このブログ記事を書くきっかけ

このブログ記事では,単純対応分析(simple correspondence analysis)で使われているいくつかの同時布置図を紹介します.

 

このブログ記事を書くきっかけは,データポエマー[,-5]さん(@bob3bob3)の以下の記事です.

データポエマー[,-5]さん(@bob3bob3)による上記の記事は,松本健太郎さん(@matsuken0716)による以下のブログ記事にやや反論する形式で書かれています.

 

1.2 このブログ記事の構成

このブログ記事の構成は,次のとおりです.

第2節では,単純対応分析のような記述的手法に関しては,自分や他人が結果を誤解すると思うのであれば,該当の手法を使わないほうがいいとの個人的な意見を述べます.

第3節では,単純対応分析の結果を図示する方法として,同時布置図以外のグラフを紹介します.

第4節では,単純対応分析の同時布置図を描くときに,どの座標を用いるかによって,グラフから読み取れる情報が異なってくることを紹介します.まず,単純対応分析の座標として,標準座標と主座標があることを紹介します.そして,フレンチプロット・非対称バイプロット・対称バイプロットといった同時布置図を紹介します.また,それ以外にも,列と行の「距離」を解釈できるようにするために,多重対応分析を利用する方法を紹介します.

第5節は,まとまです.

1.3 お断り

なお,私自身は経済的には統計分析でご飯を食べていますが,実データを分析したり,数理的な理論の発展に貢献したり,応用的な手法を考えたりしているわけではありません.

このブログ記事は,前々項(1.1)で紹介した2つのブログ記事(データポエマー[,-5]さん(@bob3bob3)と松本健太郎さん(@matsuken0716)のブログ記事)に関して,技術的なことをほんの少し補足説明しているだけであり,何かしらの新たな視点を提示するわけではありません.

このブログ記事でも,松本健太郎さんによる上記のブログ記事で使われている仮想データを用いています.ただし,実際の商品名が使われていた箇所は,A,B,C,D,Eと置換しました.

 

2. そもそも単純対応分析が必要なのか?

2.1 記述統計は難しい

そもそも,記述的な統計手法においては,自分や相手が誤解する可能性が高いのであれば,その統計手法を用いるべきではないと私は思います.

極論・暴論かもしれませんが,予測に主眼を置いた回帰分析などでは,手法そのものがまったくのブラックボックスであり,かつ,手法やアルゴリズムを誤解していたとしても,検証データや将来データでの予測精度が保持されていれば,予測に関してはまあ妥当な結果でしょう.

また,因子分析や構造方程式モデルなど,特定の確率的な統計モデルに基づく手法も,(検証データでの)適合度統計量や情報量規準を抑えておけば,細かい部分はブラックボックスにしても,半ば機械的に利用することができるでしょう(現実には,ある程度の枠組みを知っていないと,いろいろと難しいでしょうが).

記述的な統計手法では,特定の統計モデルを仮定しません.そのため,モデルの予測精度・適合度統計量・情報量規準などの分かりやすい指標が算出されません.記述的な統計手法では,提示された結果に基づいて,ユーザーがいろいろと自分で解釈する必要があります.

以上のような特徴が記述的な統計手法にはあると個人的には思います.そのため,自分が分からないものや誤解してしまう可能性が高い記述的な統計手法は,予測モデリングや統計モデルに基づく推測のとき以上に,なるべく避けるようにしたほうがいいと私は思います.

 

2.1 単純対応分析は基本的には記述的な手法である

単純対応分析も,基本的には,記述的な統計手法です(Goodmanのように,対数線形モデルなどと対比させながら一種の統計モデルとして捉える立場もありますが,こここではそのような議論は無視します).何かしらの特定の統計的モデルに基づいているわけではありません.単純対応分析では,自分の解釈や利用方法が「正しい」かどうかが,何かしらの単純な指標で保障されるわけではありません.

 

 

2. 単純対応分析を行ったら同時布置図を描く必要があるのか? そもそも単純対応分析は必要なのか?

2.1 同時付置図の欠点

2.1.1 同時付置図の直感的理解は,たびたび間違える

単純対応分析を行った場合,その結果を示すのに同時布置図がよく描かれます.同時布置図としては,行座標に対しても,列座標に対しても,主座標を用いたフレンチプロットがよく描かれます(「主座標」や「フレンチプロット」については後述します).

多くの実用的な場面において,同時布置図は必要なのでしょうか? もっと遡って,多くの実用的な場面において,そもそも単純対応分析は必要なのでしょうか? 

私は,特にカテゴリー数が少ない場合には,同時布置図は必要ないし,そして(理解できていないのであれば)無理して単純対応分析を用いる必要はないと考えます.

 

下図は,前述の松本健太郎さんによるブログ記事で取り上げられていた仮想データのフレンチプロットです.

f:id:Tarotan:20220116202208p:plainこのグラフにおいて,「50歳と商品Dは距離が近い」です.しかし,たとえ距離が近くても,次のことはまったく言えません(実際のデータでもそうなっていません).

  • 「50歳代で,かつ,商品Dを多く購入している人の人数は多い.」
  • 「50歳代の人は,他の商品よりも,商品Dを多く購入している.」
  • 「商品Dを購入している人のなかでは,50歳代が最も多い」

次のことは,かなりのベテランユーザーが注意深く見れば,少し言えるかもしれません(しかし,後述するように,厳密には,フレンチプロットではなく,非対称バイプロットでなければ,下記のことは見た目からは分かりません).

  • 「50歳代(および60歳代)は,他の年齢層と比べて,商品D(および商品E)を購入する割合が相対的に高い」

これを見るには,まず,原点から各点までのベクトルの内積を見る必要があります.

そして,フレンチプロットにおいては(強引に)内積を見るには,各主軸での分散(慣性)に注意する必要があります(繰り返しになりますが,このような内積による理解は,厳密には非対称バイプロットを用いる必要があります).

 

2.1.2 そもそも,同時付置図は近似でしかない

さらに,そもそも,同時布置図は,主成分分析と同じように,近似でしかありません.たとえ,同時布置図が正確な平面地図であったとしても,それは,あくまで2次元で近似したものに過ぎません.現実世界でも,たとえ同じ緯度・経度であっても,スカイツリーの展望エリアにいるのと地上にいるのでは,意味的には大きな違いがあるでしょう.2次元の壁に映った影が蟹や狐であったとしても,3次元での手の形は別物でしょう.2次元の近似でしかないのだから,どんなに巧妙な手法で同時布置図を描いたとしても,それはより高次元での分布の近似でしかありません.

 

2.1.3 同時付置図はカテゴリー数が少ないときはあまり役立たない

上記のように考えると,(単純対応分析を知らない人には)誤解が生じやすいですし,さらに,そもそも2次元の近似でしかないので厳密性も欠きます.そのため,カテゴリー数が少ないのであれば,わざわざ同時付置図を描く必要はないと思います.

 

2.2 同時付置図の代わりになるかもしれないグラフ

2.2.1 カテゴリーの表示順序を入れ替えたグラフ

同時付置図の代わりに,ここでは次の3つのグラフを紹介します.これらのグラフでは,単純対応分析の結果のうち,第1次元目の座標しか使っていません.いずれのグラフも,単純対応分析の第1次元の座標に基づき,カテゴリーを並び替えています.

これらのグラフは,いずれも大津(pp.154-155)で紹介されているアイデアに基づいています(そのアイデアでは,「Jacques Bertinの可換マトリックス表示法[...] に対応分析によて得られたスコアを利用」(大津 2003, p.154)しています).

 

2.2.2 その1:モザイク図

1つ目のグラフは,下に示すようなモザイク図です.

f:id:Tarotan:20220116205357p:plain

これは通常のモザイク図ですが,単純対応分析の1次元目の座標にもとづいて各カテゴリーを並び替えています.

  • 50歳代で,最も購入が多いのは(商品Dではなく)商品Eであることがすぐにわかります.
  • また,購入人数で言えば,(各長方形の面積を見ることにより)商品Dを最も購入しているのは20歳代であることがわかります.

(...もちろん,モザイク図の見方を知っておく必要はありますが....)

2.2.3 その2:度数表のバブルプロット

2つ目のグラフは,下図のように,度数表をグラフにしたものです.円の大きさが度数の大きさを示しています.なお,ここでも,各カテゴリーを単純対応分析の1次元目で並び替えています.

f:id:Tarotan:20220116205854p:plain

「商品Dを購入している年齢層は,人数で見ると20歳代が最も多い」ことが,先ほどのモザイク図よりもすぐに分かります.

 

2.2.4 その3:偏差のバブルプロット

3つ目のグラフは,やや難しいもので,おそらく初等統計学を学んだ人にしか意味が分からないグラフとなります.下図では,上図のように度数をプロットするのではなく,<偏差を期待値で割ったもの>をプロットしています.

 

f:id:Tarotan:20220116212004p:plain

このグラフは,分かる人にしか分からないグラフでしょう.しかし,分かる人が見れば,相対的割合の大小がどうなっているかが一目で分かります.

グラフからは,商品D(と商品E)では,<偏差を期待値で割ったもの>が,50代(と60代)で大きくなっていることがわかります.このことから,50代(と60代)にて商品D(と商品E)を選んでいる割合が,他の年齢層と相対的に比べた場合には高いことが一目でわかります.

少なくとも初等統計学では,<偏差を期待値で割ったもの>ではなく,<偏差を期待値平方根で割ったもの>であるがよく使われます.<偏差を期待値平方根で割ったもの>は,「Pearson残差」などと呼ばれています.Pearson残差の平方和は, r \times c表の\chi^2統計量となります.Pearson残差をプロットしたものは下図の通りです.

f:id:Tarotan:20220117091424p:plain

 

2.3 カテゴリー数が少ないのであれば,わざわざ単純対応分析をする必要はないと思う

前項での3つのグラフでは,カテゴリーを並び替えるのに,単純対応分析を利用しました.単純対応分析における1次元目の座標によって,カテゴリーをソートしました.しかし,カテゴリー数が少ないのであれば,単純対応分析を使わず,手作業でソートしても,それほど手間ではないと思われます.

よって,カテゴリー数が少ないのであれば,同時付置図を描く必要ななく,上記のようなグラフを描いたので十分だろうし,その際に単純対応分析を行わなくても,手作業でカテゴリーを並び替えたので十分ではないかと個人的には思います.

 

3. さまざまな座標,さまざまな解釈

3.1 この節の構成

この節では,まず,標準座標と主座標について紹介し,それらを行列表記を用いながら簡単に説明します.続いて,フレンチプロット・非対称バイプロット・対称バイプロットといった同時布置図を紹介します.また,列と行の「距離」を解釈できるようにするために,多重対応分析を利用する方法を紹介します.

3.2 標準座標と主座標

単純対応分析(や主成分分析,多重対応分析)では,いくつかの種類の座標があります.有名なものには,主座標(principal coordinate)と標準座標(standard coordinate)があります.

主座標では,各次元での主座標の分散が固有値と等しくなっています.この性質から,固有値(主座標の分散)は,物理学の力学からの用語である「慣性モーメント」を援用して「慣性」と呼ばれることがあります.

一方,標準座標では,分散が1に標準化されています.

単純対応分析を<多次元の空間上に散らばっている点を低次元の空間(たとえば2次元)へ射影する手法>と考えた場合,その視点から自然に導かれる座標は主座標でしょう.

一方,数量化Ⅲ類のように,<相関係数を最大化するスコアを求める>というような枠組みを考えた場合には,その視点から自然に導かれる座標は標準座標でしょう.

 

3.3 標準座標と主座標の行列表記

3.3.1 単純対応分析の行列表記

単純対応分析は,次のような特異値分解から算出することができます.

  {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2} = {\bf U}{\bf D}_{\sqrt{\lambda}} {\bf V}^T

上式において,各記号の意味は次のとおりです.

  •  {\bf P}は,各セルの度数を総度数で割ったものを要素とする r \times c行列です( rは度数表の行数, cは度数表の列数).
  •  {\bf E}は,行和および列和を固定し,かつ,行と列が独立であるとの仮定から算出される {\bf P}の期待値です.行の周辺割合を要素とする r \times 1のベクトルを {\bf p}_r,列の周辺割合を要素とする c \times 1のベクトルを {\bf p}_cとすると, {\bf E} ={\bf p}_r {\bf p}_c^Tです.
  •  {\bf D}_rは, {\bf p}_rを対角要素とする r \times rの対角行列です.
  •  {\bf D}_cは, {\bf p}_cを対角要素とする c \times cの対角行列です.
  • 右辺は,左辺の行列 {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2}特異値分解したものです.以下で, kを左辺の行列がもつ次元とします.実用上の多くの場面で  k = {\rm min}( r - 1, c -1)となっています.
    •  {\bf U}は,左特異ベクトルを含む  r \times kの列直交行列です(ここで列直交行列とは, {\bf U}^T{\bf U} = {\bf I}_kとなっている行列を指します. {\bf I}_k k \times k単位行列です).
    •  {\bf V}は,右特異ベクトルを含む  c \times kの列直交行列です(ここで列直交行列とは, {\bf V}^T{\bf V} = {\bf I}_kとなっている行列を指します).
    •  {\bf D}_{\sqrt{\lambda}}は,特異値を対角要素にもつ k \times kの対角行列です.特異値は,固有値(慣性; 主座標の分散)の正の平方根です.

なお,左辺  {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2} の各要素は,Pearson残差を総度数の平方根 \sqrt{n})で割ったものです.よって,それらの各要素の平方和は, \chi^2統計量を nで割ったもの,すなわち,ファイ係数の2乗となっています.

3.3.2 主座標の行列表記

前目(3.3.1)での記号を用いると,主座標は次のように表されます.

  • 行の主座標: {\bf D}_r^{-1/2} {\bf U}{\bf D}_{\sqrt{\lambda}}
  • 列の主座標: {\bf D}_c^{-1/2} {\bf V}{\bf D}_{\sqrt{\lambda}}

3.3.3 標準座標の行列表記

前々目(3.3.1)での記号を用いると,標準座標は次のように表されます.

  • 行の標準座標: {\bf D}_r^{-1/2} {\bf U}
  • 列の標準座標: {\bf D}_c^{-1/2} {\bf V}

前目(3.3.2)で記した主座標では,各列の分散が各次元の固有値と一致します.一方,標準座標では,いずれの次元でも各列の分散は 1になっています.

 

3.4 フレンチプロット

行の座標に対しても,列の座標に対しても,両方とも主座標を採用して,かつ,1枚のプロットに示したグラフは,「フレンチプロット」・「対称プロット」・「Benzécriプロット」などと呼ばれています.

主座標を用いた場合,プロットにおけるそれらの点のあいだのユークリッド距離は,カイ2乗距離(を近似したもの)を表しています.行に対して,主座標をプロットすれば,そのプロットでのある列Aの点と別の列Bの点とのユークリッド距離は,その列Aと列Bとのカイ2乗距離(を近似したもの)を表すことになります.なお,ここで「近似」と述べているのは,たとえば平面にプロットした場合は,2次元までの情報しか使っていないので,元のカイ2乗距離を近似したものにすぎないからです.

 

主座標がカイ2乗距離を表現することを,行列表記で荒く説明しましょう.

行の主座標を {\bf Y}_rとします. {\bf Y}_r = {\bf D}_r^{-1/2} {\bf U}{\bf D}_{\sqrt{\lambda}} ですので, 特異値分解の結果である {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2} = {\bf U}{\bf D}_{\sqrt{\lambda}} {\bf V}^Tの両辺に {\bf D}_r^{-1/2}をかけると, {\bf D}_r^{-1} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2}  = {\bf Y}_r {\bf V}^Tとなります.

 {\bf D}_r^{-1} ({\bf P} - {\bf E})は,同時割合(から期待割合を引いたもの)を行周辺割合で割っています.よって,各行で計算された条件付き割合(から期待割合を引いたもの)となっています. {\bf D}_r^{-1} {\bf P}という条件付き割合は,「行プロファイル」と呼ばれています.

その行プロファイル(から期待割合を引いたもの)の各列は,列周辺割合の平方根で標準化されています(通常の主成分分析では,標準偏差で標準することが多いですが,対応分析では,このように列周辺割合で標準化しています.また,単純対応分析では,各行は,行周辺和だけの度数(質量,重み)があるとして計算されます.通常の主成分分析は,各行の度数は1とされてることが多いです.さらに,通常の主成分分析では,各列は列平均が引かれることが多いです).

行列 {\bf D}_r^{-1} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2}における,第 i行目と第 i'行目のユークリッド距離は,第 i行目のプロファイルと第 i'行目の行プロファイルの「カイ2乗距離」と呼ばれています.

また, {\bf D}_r^{-1} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2}  = {\bf Y}_r {\bf V}^Tであり, {\bf V}^T]は列直交行列であるため,左辺における行間のユークリッド距離は,行列 {\bf Y}_rにおける行間のユークリッド距離と等しいです.

以上は,行プロファイルに関して説明しましたが,列プロファイルについても同じことが言えます.

つまり,行主座標を用いると,そのプロットされた行点のあいだのユークリッド距離は,行プロファイルのカイ2乗距離を近似したものになります.列に関しても同様で,列主座標を用いると,そのプロットされた列点のあいだのユークリッド距離は,列プロファイルのカイ2乗距離を近似したものになります.

フレンチプロットは,行に対しても,列に対しても,主座標をプロットしたものでした.そのため,行点と行点のあいだの距離は上記のように解釈できます.同様に,列点と列点のあいだの距離も上記のように解釈できます.しかし,行点と列点のあいだの距離は,(基本的には)解釈できません.

 

3.5 非対称バイプロット

3.5.1 記号

この項では,主座標および標準座標を次のように表記します.

  • 行の主座標を列に含んだ r \times k行列を, {\bf Y}_r ( = {\bf D}_r^{-1/2} {\bf U}{\bf D}_{\sqrt{\lambda}} )
  • 列の主座標を列に含んだ c \times k行列を, {\bf Y}_c ( = {\bf D}_c^{-1/2} {\bf V}{\bf D}_{\sqrt{\lambda}} )
  • 行の標準座標を列に含んだ r \times k行列を, {\bf X}_r ( = {\bf D}_r^{-1/2} {\bf U} )
  • 列の標準座標を列に含んだ c \times k行列を, {\bf X}_c ( = {\bf D}_c^{-1/2} {\bf V} )

 

3.5.2 非対称バイプロット

特異値分解した結果は, {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2} = {\bf U}{\bf D}_{\sqrt{\lambda}} {\bf V}^Tでしたので,次のような関係が成立します.

 {\bf D}_r^{-1} ({\bf P} - {\bf E}) {\bf D}_c^{-1} = {\bf Y}_r {\bf X}_c^T = {\bf X}_r {\bf Y}_c^T

左辺が -1/2乗ではなく-1乗になっている点に注意してください.この式より,次の2つの内積が,<偏差を期待値で割ったもの>と等しくなることが分かります.

  • 行の主座標と,列の標準座標の内積
  • 行の標準座標と,列の主座標の内積

このアイデアに基づき,上記のような非対称な形式(一方が主座標,もう一方が標準座標)で描いたバイプロットを,「非対称バイプロット」などと呼びます.

 

前の式の両辺に {\bf D}_r^{1/2} {\bf D}_c^{1/2}をかけると,次のように変形できます.

 {\bf D}_r^{-1/2} ({\bf P} - {\bf E}) {\bf D}_c^{-1/2} =  ({\bf D}_r^{1/2}{\bf Y}_r) ({\bf D}_c^{1/2}{\bf X}_c)^T = ({\bf D}_r^{1/2}{\bf X}_r) ({\bf D}_c^{1/2}{\bf Y}_c)^T

この式より,次の2つの重み付き内積が,<偏差を期待値平方根で割ったもの>,つまり,Pearson残差(を総度数の平方根で割ったもの)と等しくなることが分かります.

  • 行の主座標と,列の標準座標の,周辺割合の平方根で重み付けた重み付き内積
  • 行の標準座標と,列の主座標の,周辺割合の平方根で重み付けた重み付き内積

周辺割合は,「重み」や「質量」と呼ばれています.ある行の周辺割合は {\bf D}_rの該当する対角要素であり,ある列の周辺割合は {\bf D}_cの該当する対角要素です.

この重み付き内積には,周辺割合(重み,質量)が関わってくるので,プロットから読み取るには,周辺割合の情報がプロットに描かれている必要があります.周辺割合の情報をプロットに描く場合には,円の大きさで描くことが多いと思われます.

わざわざプロットから周辺割合を読み取るのは面倒だが,内積の解釈としては,Pearson残差を見たい場合には,次のような座標のいずれかを用いることも考えられます.

  • 行座標として {\bf U}{\bf D}_{\sqrt{\lambda}},列座標として {\bf V}
  • 行座標として {\bf U},列座標として {\bf V}{\bf D}_{\sqrt{\lambda}}

この座標は,たとえばGower et al.(2011, pp.290-291)で紹介されています.

 

3.5.3 非対称バイプロットにおいて,距離によって行と列との関係を解釈する場合

一方に主座標,もう一方に標準座標を用いる非対称バイプロットは,前目(3.5.2)で述べたように内積によって,行と列との関係について,ある側面を知ることができます.その非対称バイプロットでは,そのような内積だけではなく,距離によって,行と列との関係についての特定の側面を解釈することもできます.

列標準座標は,<該当の列だけを100%としてそれ以外のすべての列を0%とした行プロファイルの行主座標>と一致します.同様に,行標準座標は,<該当の行だけを100%としてそれ以外のすべての列を0%とした列プロファイルの列主座標>と一致します.

この性質を考えれば,<標準座標で表されたある列点と,主座標で表されたある行点との距離>は,<該当のその列だけを100%としてそれ以外を0%とした行プロファイルと,該当の行の行プロファイルとのカイ2乗距離>を表すことになります.

同様に,<標準座標で表されたある行点と,主座標で表されたある列点との距離>は,<該当のその行だけを100%としてそれ以外を0%とした列プロファイルと,該当の列の列プロファイルとのカイ2乗距離>を表すことになります.

 

3.5.4 フレンチプロットと非対称バイプロットの相違点

先ほどのフレンチプロットとは異なり,非対称バイプロットでは,上記のような意味で,行と列との関係におけるある側面を見ることができます.また,非対称バイプロットのうち,主座標で描かれているほうは,カイ2錠距離(の近似)として解釈できます.しかし,標準座標で描かれているもの同士の距離や内積は(基本的には)解釈できません.

 

3.5.5 非対称バイプロットの実用上の欠点

非対称バイプロットは,実用ではあまり使われていないのではないかと思います.その理由の1つが,「見栄えが悪くなる」からです.

特に,各カテゴリーにほどよく度数が分布している場合,非対称バイプロットは,主座標で描いている点が中心にゴチャゴチャに固まったグラフになります.下図は,松本健太郎さん(@matsuken0716)のブログ記事での仮想データをもとに描いた非対称バイプロットです.

f:id:Tarotan:20220117160304p:plain

非対称バイプロットがこのような中心にグジャッと固まったグラフになりやすい理由は,標準座標が,もう一方のプロファイルで100%としたときの主座標になることを考慮すると,直感的に理解できるでしょう.

 

3.5.6 対称バイプロット

非対称バイプロットは「行点と列点との内積が解釈できる」という利点がありますが,行と列とで扱いが非対称となっています.そこで,「行点と列点との内積が解釈できる」という利点を保持しながら,対称に扱うことが考えられます.

具体的には,

  •  {\bf D}_r^{-1/2} {\bf U}{\bf D}^{1/2}_{\sqrt{\lambda}}
  •  {\bf D}_c^{-1/2} {\bf V}{\bf D}^{1/2}_{\sqrt{\lambda}}

という対称な座標をプロットします.行と列の両方において,主座標と異なり, {\bf D}_{\sqrt{\lambda}} 1/2乗している点に注意してください.

この非対称バイプロットでは,内積が3.5.2で述べたような解釈が行えます.しかし,列も行もいずれも主座標ではありませんので,行点と行点との距離,および,列点と列点との距離はいずれも(基本的には)解釈できません.

 

3.6 フレンチプロットでも非対称プロットのように解釈できる?

標準座標にその次元の特異値を掛ければ,主座標となります.標準座標と主座標の違いは,各次元でスケールが違うだけです.つまり,平面にプロットした場合,グラフを横に伸ばしたり,縦に伸ばしたりしただけで,標準座標から主座標へ,もしくは,主座標から標準座標へと変換できます.

標準座標と主座標位はそのようなスケールの違いしかありませんので,もしも,ある次元と別の次元の特異値にそれほど差がないのであれば,標準座標と主座標のいずれでプロットしても見栄えはそれほど変わりません.そのため,もしも,ある次元と別の次元の特異値にそれほど差がないのであれば,非対称プロットで行ったような内積による解釈も行えます.

Gabriel(2002)では,応用の多くの場面では,フレンチプロットであっても内積の近似はそれほど悪くならないし,対称バイプロットであっても行どうしのカイ2乗距離や列どうしのカイ2乗距離の近似はそれほど悪くならないだろうとアドバイスされています.

 

3.7 行と列の「距離」を解釈するための同時付置図: 多重対応分析の利用

行の第 iカテゴリーと,列の第 jカテゴリーとの距離の2乗を次のように定義するとします.

 (n_i + n_j - 2 n_{ij})/(n_i n_j/n)

分子は,行の第 iカテゴリーと列の第 jカテゴリーの2つのうち,いずれか1つのカテゴリーだけが選択されているものの度数です.分母は(選択が独立だとみなしたときの)その期待値です.

この式を用いて,(半ば無理矢理ですが)行どうしのカテゴリー i i'の距離や,列どうしのカテゴリーj j'の距離も定義することにします.

このようにして求められた距離は,行の1変数と列の1変数の2変数をもとに行った多重対応分析でのカイ2乗距離に一致します.この性質より,2変数をもとに単純対応分析ではなく,多重対応分析を行うと,多重対応分析の主座標によってプロットされた行と列のユークリッド距離は,上記した距離を近似することになります.

 

2変数に対する多重対応分析に対する結果は,それらの一方を行,もう一方を列とした単純対応分析から算出できます.元の単純対応分析の固有値 \lambdaとすると,最初の {\rm min}(r-1, c-1)次元までは,2変数の多重対応分析の固有値は,

 (1 + \sqrt{\lambda})/2

となります.2変数の多重対応分析の主座標は,元の単純対応分析の標準座標に,この固有値平方根 \sqrt{(1 + \sqrt{\lambda})/2}をかけたものとなります.

このように単純対応分析をわざわざ2変量の多重対応分析と見なして,行と列との距離を解釈できるものにするというアイデアは,Carroll, GreenおよびSchafferという3名によって提案されたので(Carroll et al. 1986),「CGSプロット」などと呼ばれています.その後に,同じ雑誌上にて,CGSプロットを否定的に捉えているGreenacreとのあいだで議論がありました.一方,たとえば西里(2019)などはCGSプロットを肯定的に捉えています.

 

3.8 各種プロットで表現されるもののまとめ

これまでに見てきたように,座標としてどのような種類のものを用いるかによって,プロットから解釈できるものは違います.Gabriel(2002)のp.432に記載されている表を変更・一部省略・一部追加したものを,下表に示します.

プロットの種類

行座標

列座標

列と列の距離

行と行の距離

行と列の内積

行と列の距離

フレンチプロット

主座標

主座標

カイ2乗距離

カイ2乗距離

行主座標-非対称

主座標

標準座標

カイ2乗距離

×

偏差÷期待度数

100%からのカイ2乗距離

列主座標-非対称

標準座標

主座標

×

カイ2乗距離

偏差÷期待度数

100%からのカイ2乗距離

対称バイプロット

標準座標 × 特異値の平方根

標準座標 × 特異値の平方根

偏差÷期待度数

CGSプロット

多重対応分析の主座標

多重対応分析の主座標

×

×

一緒に選ばれていない度数を期待度数で割ったもの

 

 

4. 最後に

単純対応分析は記述的手法ですので,自分や相手が誤解する可能性があるなら,使わないほうがいいと思われます.特に,カテゴリー数が少ない場合には,別の表現方法があります.

単純対応分析の座標にはいくつかの種類があり,それによって,同時布置図に描かれるものが異なってきます.

よく使われるフレンチプロットは,「行点と行点のユークリッド距離は,それらの行プロファイルのカイ2乗距離の近似である」および「列点と列点のユークリッド距離は,それらの列プロファイルのカイ2乗距離の近似である」と解釈できます.しかし,行点と列点のあいだの内積や距離は,Gabriel (2002)のような指摘はあるものの,基本的には直ちには解釈ができません.

行と列との関係を見る同時布置図としては,非対称バイプロットとCGSプロットがあります.このうち,非対称バイプロットは,主座標のほうの点が原点周りにギュッと固まってしまうという欠点があります.CGSプロットについては,賛否があります.

 

参考文献

Carroll, J. D., Green, P. E. and Schaffer. C. M. (1986) Interpoint Distance Comparisons in Correspondence Analysis. 23, 271-280.

Gabriel, K. R. (2002) Goodness of Fit of Biplots and Correspondence Analysis. Biometrika, 89(2), 423-436.

Gower, J., Lubbe, S. and Le Roux,N.(2011) Understanding Biplots. Wiley

西里静彦(2019)回顧:数量化理論とグラフ.データ分析の理論と応用. 8(1),47-57.

大津起夫(2003)社会調査データからの推論:実践的入門.甘利俊一・竹内啓・竹村彰通・伊庭幸人(編)『統計科学のフロンティア10 言語と心理の統計』岩波書店.129-177.

 

修正履歴

2022-01-18 0:30 初版

 

 

 

 

正規逆カイ2乗分布の乱数生成方法の一例

正規線形モデルにおけるパラメータ( \mathbb{\beta}, \sigma^2)に対する共役事前分布は,正規逆カイ2乗分布(normal inverse chi-square distribution)であることが知られています(Hagan and Forster 2004: pp.305-307, 繁桝 1985: pp.176-177).

 

正規逆カイ2乗分布の乱数を生成する方法はいくつかあるようですが(ギブスサンプリングで生成するのが王道かもしれません?)(←削除:McAlinn先生からTwitterにて教えていただいた(202113日)のですが,この記事で述べる方法も「ギブスサンプリング」と呼べるとのことです. \mathbb{\beta}| \sigma^2\sigma^2| \mathbb{\beta} の条件付き分布を交互に生成するものだけを「ギブスサンプリング」と呼ぶと私は勘違いしていました.)

 f(\mathbb{\beta}, \sigma^2)  = f(\sigma^2) f(\mathbb{\beta}| \sigma^2)

と分解して,前者の周辺分布が逆カイ2乗分布,後者の条件付き分布が多変量正規分布に従うことを利用するのが,素直な方法のようにも思えます.

 

以下のRコードは,その素直な方法で正規逆カイ2乗分布の乱数を生成しています.また, \mathbb{\beta}の1変量周辺分布のヒストグラムを描いて,それが解析的な答え(位置-尺度型のt分布)になっていることを見た目で確認しています.

 \mathbb{\beta}の分散共分散行列が \sigma^2 \times S0となるようにパラメタライゼーションしています.また, tau = 1/\sigma^2です.)

 

set.seed(20220103)
b0 <- c(2, 9, 1)
S0 <- matrix(c(3,1,1,1,5,1,1,1,7), nrow=3, ncol=3)
l0 <- 7.5;
nu0 <- 10;
nsim <- 100000;

Ch0 = chol(S0);
p <- length(b0)

result <- matrix(nrow = nsim, ncol = 4);
for(i in 1:nsim){
    tau <- rchisq(1,nu0) /(nu0 * l0);
    b <- b0 + (Ch0/sqrt(tau)) %*% rnorm(p);
    result[i, 1] <- tau;
    result[i, 2:(p+1)] <- t(b);
};

scale <- matrix(nrow = p, ncol = 1)
par(mfrow = c(2,2))   
for(i in 1:p){
  scale[i] <- sqrt(S0[i, i])*sqrt(l0);
  hist(result[,i + 1], prob = TRUE)
  curve((1/scale[i])*dt((x -b0[i])/scale[i], nu0), add = TRUE)
}

 

f:id:Tarotan:20220103171539p:plain

βの周辺分布がt分布になることの確認

上記のコードは事前分布の乱数を生成するものです.事後分布は,ハイパーパラメータがちょっと複雑なものになると思います(試していません).

(...そもそも論として,乱数を生成するのであれば,共役事前分布を仮定する実用上の意義がないように思います....)

 

参考文献

O'Hagan, A. and Forster, J. (1994:1st ed., 2004:2nd ed.) Kendall's Advanced Theory of Statistics. Vol.2B. Bayesian Inference. 

繁桝算男(1985)『ベイズ統計入門』東京大学出版会