批判されているのは、どの統計的検定?

American Statistical Associationがp値に関してステートメントを出しました。

Ronald L. Wasserstein & Nicole A. Lazar (2016): The ASA's statement on p-values: context, process, and purpose, The American Statistician, DOI: 10.1080/00031305.2016.1154108

 一読しただけですが、「一体、このASAのステートメントは、どの統計的検定を問題にしているのか?」と、ふと疑問に思いました。

統計的検定は一枚岩ではありません。たとえば、Barnett(1999)では、統計的推測のアプローチを便宜的に「古典」統計学、Bayes流、意思決定論の3つに分類しています(Barnett, V.(1999) "Comparative Statistical Inference (3rd ed.)"を参照のこと)。さらに、「古典」統計学の統計的検定は、慣習的にFisher流とNeyman流の2つに分類されます。

もちろん、同ステートメントの著者らがこれらの違いを知らないはずがありません(参考文献には、これらの違いを解説した論文が紹介されています。たとえば後述のGigerenzer(2004)など)。ステートメントの本文ではあえてこれらの違いに触れなかったのでしょう。

なぜFisherとNeymanの対立を取り上げなかったのか、私なりに理由を妄想してみました。

  1. ふたつの立場を説明すると、多くのエンドユーザーは混乱してしまうから。
  2. FisherとNeymanが何を争っていたかが分かりづらいから。Fisher自身が前期と後期で主張していることが微妙にずれており、さらに、Neymanのほうは、彼の理論(仮説検定)とFisherの理論(有意性検定)には違いはないとも主張している。
  3. Bayes流の立場、意思決定理論の立場、または、統計的推測を全否定する立場から見れば、FisherもNeymanも同じ穴のムジナだから。
  4. そもそも「どんなときでも5%を閾値として判断する方式」は、Fisherも、Neymanも主張していないから。

Gerd Gigerenzerらによると、米国では1930年~1955年において教科書を媒介として心理学などの分野で統計的検定が普及していったそうです。このとき、統計的検定は、Fisher、Neyman、Bayesをごちゃまぜにした、匿名の手法として広まったそうです(巷に普及している統計的検定がNeymanとFisherのチャンプルーであることは、Spielman, S.(1974) "The logic of tests of significance", Philosophy of Science, 41, pp.211-226で指摘されていました)。この静かなムーブメントを、Gerd Gigerenzerらは、「推測革命(inference revolution)」と呼んでいます。ASAのステートメントが問題にしているのは、おそらくGigerenzerが批判している「匿名の統計的検定」なのでしょう。

今回のステートメントの文献リストを見ると、Gigerenzer, G.(2004) "Mindless statistics" Journal of Socioeconomics, 33:pp.567–606が挙げられています。私の知識では事実かどうか判断できない部分もあり、また、異論があるところもありますが、面白かったです。どうなんでしょう?

王立化学協会『一杯の「完璧な紅茶」のいれ方』日本語訳

2022年3月15日 Googleドライブの権限変更のため,ファイルが共有されていませんでした.リンクを変更しました.

 

2003 年度に王立化学協会から出された、紅茶に関するふたつのニュースリリースを日本語に訳しました。

 

ご興味がある方は、以下のふたつのPDFファイルをご覧ください。

オーウェル.pdf

一杯の「完璧な紅茶」のいれ方.pdf

オーウェル.pdf - Google ドライブ

一杯の「完璧な紅茶」のいれ方.pdf - Google ドライブ

 

英語の原文は、以下のページで公開しています。

Two News Releases about “a Perfect Cup of Tea” by the Royal Society of Chemistry - Tarotanのブログ

 

これらのニュースリリースは、ジョージ・オーウェル生誕100 周年に出されたものです。

 

王立化学協会の担当者からは翻訳したものを公開してよいとの許可を得ていますが、これらの訳は訳者の独断と偏見によるものであり、王立化学協会は一切、関与していません。

 

訳文は、かなり原文とはニュアンスがかけ離れた部分もあります。引用などをするさいには、原文に目を通すことを強く推奨いたします。

 

 

 

 

「店主のブログ 紅茶が先か、ミルクが先か?」に対するコメント

致命的な誤りの修正:2015年10月3日 午後

2015年10月3日の朝に記載しました以下のブログにおいて、データ収集および確率計算に、致命的な間違いがいくつかありました。

 

まず、以下の語句で誤りがありました。

 (誤)推定 → (正)推測

 (誤)幾何分布 → (正)負の二項分布

特に、ふたつ目の誤りは統計関係者として恥ずかしいものです。

また、確率パラメータが0.5の負の二項分布に基づいて、10回成功するまでに1回だけ失敗したときの片側検定の確率計算を大きく間違えていました。

  0.5 ^ 10 + 10*0.5^11

とすべきところを、

  0.5 ^ 11 + 10*0.5^11

としていました。

さらに、そもそもデータの収集方法が間違えていました。検索キーワードを、"tea with milk"とすべきところを、"milk with tea"としていました。"tea with milk"として分析をしなおしました。

以下の本文では、修正前のものは一重線で打ち消し、その後に修正後のものを表記しています。

いずれも初歩的な間違えであり、たとえ相当に急いでいたとはいえ、統計関係者として恥ずかしいものです。お詫び申し上げます。あまりにも間違いが多いので全部を削除したいのですが、「こういった間違いをするのだ」という反面教師の例として残しておきます。また、さらに何か間違いがございましたら、お手数ですがご連絡いただければ幸いです。

本文

以下のブログにおける「統計的」な部分について、コメントしたい。

母集団・標本・推定推測

上記ブログにおける「母集団は多ければ多いほど、統計学的には結果の信憑性が増します。」は、「標本の大きさは大きければ大きいほど」の誤記であろう(といっても、現実には、標本を大きくしたからといって、必ずしも精確さが増すわけではない)。

近代統計学の標本調査と呼ばれている分野では、全体から一部分を抽出し、その一部分をもとに全体像を想像する。専門用語で、

 「全体」のことを「母集団」、

 「一部分」のことを「標本」、

 「想像する」ことを「推定する推測する

という。

推定はどんな標本からも行えるわけではない。「無作為抽出」と呼ばれる手法で母集団から標本を抜き出したときに限り、標本から母集団を推定する推測するのに統計手法が使えるようになる。標本が無作為抽出されたものでないときには「選択バイアス」のために、統計分析は(もし行えるとしても)非常に複雑怪奇なものとなる。

以上のことを踏まえて、以下の2つの点を指摘しておきたい。

母集団の設定がおかしいのでは?

第1に、今回の調査では、母集団の設定がおかしい。おそらく、今回の「店主のブログ」における調査における母集団は、「Googleのクロールで蓄積された画像」であろう。我々が本当に知りたいのは、写真がどうなっているかではなく、人々がミルク先/ミルク後のどちらを採用しているかではないだろうか? 筆者が見た限り、Google検索の先頭にくるのは、プロが撮影した素材である。一般の人々が日常生活で行っている作業と、プロが撮影した写真とのあいだには乖離があるのではないだろうか?

標本が無作為抽出ではない

第2に、今回の標本は無作為抽出ではないので、調査結果を一般化できない。Googleの検索結果として表示される順序は無作為ではなく、(筆者が知る限り)クロールとページランキングと呼ばれている方法でランク付けされたものである。そのため、検索結果の一部から、全体像を想像するのは相当に危険である。

Googleにあまり頼るべきではない

Googleの検索は非常に便利な機能であるが、検索にヒットした数で物事を判断するのに統計学の手法を用いるのは難しい。それは、駅前アンケートやテレビの街頭アンケートに統計手法を適用するのが不可能に近いのと同じである。

それでも、あえて計算すると...

以上のような理由で、統計手法は使えない。しかし、あえて統計分析をしてみた。

ミルク先/ミルク後のいずれかが10件となるまでに”milk with tea”"tea with milk"をキーワードとした画像検索の結果を先頭から数えたところ(2015年10月3日朝2015年10月3日昼)、

 「ミルク先」が1件0件

 「ミルク後」が10件

 いずれにも判別不能が105件50件

であった。言い換えると、ミルク後が10件に達するまで画像を上から見ていったところ、ミルク先が1件0件であり、判別不能が105件50件であった。

もしも、ミルク先/ミルク後が50%/50%の確率でランダムに出現すると仮定すれば、今回のデータ以上に極端なことが起こる確率は0.54%0.098%(=0.5^10)である*1。この確率は相当に小さいので、ミルク先/ミルク後は半々の確率でランダムに出現しているとは言えないだろう。

このことから、Googleにて”milk with tea””tea with milk”というキーワードで画像検索した場合、先頭にくる画像は「ミルク後」のほうに偏っていると言えるだろう。ただし、くどいようだが、母集団の設定が曖昧で、かつ、無作為抽出ではないから、この結果が意味するところを解釈するのは難しい。

 代替案はあるのか?

ミルク先/ミルク後のどちらを人々が採用しているのかをカウントする方法について、良い方法を筆者は知らない。もちろん、公共性の高い学術調査では選挙人名簿や住民基本台帳から、無作為抽出をして調査を行っている。しかし、予算的にも、倫理的にも、制度的にも、紅茶のミルク先/ミルク後を聞くために、そのような無作為抽出の調査は行えないだろう。正式な調査が行えないことが、無限の議論を引き起こす源になっているのかもしれないと思った。

王立化学協会に対する反論となっているのか?

最後に、今回の「店主のブログ」における主張は、王立化学協会に対する反論にはなっていないと筆者は思う。王立化学協会の目的は、”the perfect cup of tea”の作り方を制定することであり、「どちらの方法が多く採用されているか?」を調べることではないし、また、「マナー上でどちらが良いか?」を追求しているわけではない。多数派が採用している行儀正しい方法が必ずしも良い方法とは限らないだろう。

*1:50%/50%の仮定のもとで、幾何分布負の二項分布と呼ばれているものに従う。

Two News Releases about “a Perfect Cup of Tea” by the Royal Society of Chemistry

On Mar-15-2022: The link to files in Goodle Drive had not been shared. I have updated the link.

 

The following two PDF files were released by the Royal Society of Chemistry (RSC) in 2003.

  • News Release #1: orwell.pdf
  • News Release #2: tea.pdf  (Title: How to make a Perfect Cup of Tea)

 

 

I thank the RSC very much that they permit me to upload and open these two PDF files on this anonymous blog.

 

 I’ve sometimes heard that some urban legends like that “The RSC proved Milk In First (MIF) was better than Milk In After (MIA) scientifically in 2003”. I would like you to read the above two files carefully before stopping the debate over MIF v.s. MIA.

 

I would also like to recommend you read the following articles written by several British mass medias.

 

George Orwell is one of the greatest British authors, and the RSC is the world-class scientific authority. But they are NOT the BIG BROTHERs. 

 

                                                   THE END

                                                                                      “John Smith”

 

NOTE: I owe all responsibilities for the contents in this page.

 

紅茶の「ミルク先」都市伝説

2015年9月29日:追記

王立化学協会様から許可を頂き、2003年にリリースされた、"a Perfect Cup of Tea"に関するふたつのプレスリリースを、以下のページに公開しました。このページを読む前に、是非、実物をご一読ください。

Two News Releases about “a Perfect Cup of Tea” by the Royal Society of Chemistry - Tarotanのブログ

はじめに 〜 紅茶を巡る都市伝説 〜

ミルクティーに関して、次のような都市伝説がある。

「ミルクを先に入れるべきか? 紅茶を先に入れるべきか?」という論争があるが、2003年に「ミルクを先に入れるほうがよい」と王立化学協会が証明した

 この都市伝説の出発点は、王立化学協会(以下、「協会」と呼ぶ)によるジョークだと筆者は思っているが、どんな種類のジョークなのだろうか?

 その疑問を明らかにするため、とても野暮なことなのだが、ジョークの中心的な構図を考察した。

 

ジョークの中心的な構図

2003年、協会は、ジョージ・オーウェルの生誕百周年に合わせ、紅茶に関するプレスリリースを発表した*1。紅茶を話題にしたのは、オーウェルが ”A Nice Cup of Tea” というエッセイを書いていることに由来する。

 協会は、一連のプレスリリースにおいて理想的な紅茶の作り方を論じているのだが、オーウェルの主張とは異なることを主張した。両者の相違点を表1に示す。 

 

オーウェルの主張

協会の主張

紅茶は相当に濃くあるべき

紅茶は濃くなくてOK

砂糖は入れるべきではない

お好みで砂糖を入れてもOK

ミルク後

ミルク先

                        表1 オーウェルと協会の主張の違い

 表1における右下隅の「ミルク先」だけが注目され、「ミルク先がよいことが協会により科学的に証明された」という都市伝説が広まったようである。

 情報の一部分だけを切り出してジョークを理解することは難しい。ここでは、生誕百周年という背景と、表1の全体を見渡してほしい。そうすると、「生誕百周年という記念すべき日に、有名作家の意見にイチャモンをつけている」という構図が見えてくるのではなかろうか。協会による一連のプレスリリースにおけるジョークは、この構図 ー記念日で祝われている権威者に喧嘩を売っているという構図 ー が中心となっているのではないかと筆者は推察する*2

 もしもオーウェルが「ミルク先」と主張していたならば、協会は「ミルク後」と主張しただろう。現実にはオーウェルは「ミルク後」と主張したので、協会は「ミルク先」と主張したのであろう*3。筆者はそのように想像する。

 

マスメディアの反応

協会によるジョークを理解するには、協会の発表に対する英国マスメディアの反応が非常に役立つ。以下に、各メディアにおいて、記事へのリンクと、協会への主だった批判を記す。

 

 BBCBBC NEWS | UK | How to make a perfect cuppa

協会が発表したいくつかのルールは個人的趣味であり化学的根拠はない。

 The Guardian:How to make a perfect cuppa: put milk in first | UK news | The Guardian

これは、英国人の半数に対する宣戦布告だ。オーウェルの生誕百周年というのに、彼の墓に吐きかける行為だ。

 Telegraph:Guide to the perfect cuppa starts a storm in a teacup - Telegraph

物理学者が言うには、「『ミルク先』なんてものは文化的慣習にすぎない。本当の秘訣は、水温を98度に保つことだ」。

 

記事を読めばわかるように、ある意味では非常に真剣なのだが、あくまでジョークとして各メディアも記事を書いている。

 

結び

王立化学協会によるプレスリリースのジョークを筆者なりに考察した。「記念日で祝われているオーウェルに喧嘩を売る」という構図が、このジョークの中心ではないかと筆者は推察した。

「『ミルク先がよい』は世界的権威が証明した科学的な真実だ」などと思わないほうが良さそうである。権威に対する無批判な信仰なんてものは、『1984』を書いたオーウェルも、そのオーウェルに喧嘩を売った協会も、それを「真剣」に報じた英国マスメディアも、そして紅茶の議論をエンドレスに続ける人々も、誰も望んではいないだろう。

*1:筆者が知る限り、記念日前と記念日に1つずつ、計2つのプレスリリースが発表された。※ 2015/9/29追記:Two News Releases about “a Perfect Cup of Tea” by the Royal Society of Chemistry - Tarotanのブログに公開しました

*2:これ以外にもプレスリリースにはいろいろなネタが埋め込まれている。

*3:ただし、協会のプレスリリースでは、「ミルクを先にいれておいたほうが、温度が上がらず牛乳のタンパク質が変質しない」という化学的理由も周到に述べられている。しかし、そのような立派な化学的説明があるのにも関わらず、都市伝説の真偽を確かめるための実験は行われていない。

メモ:Hacking(1988)テレパシー論文の細かい点に対する違和感

背景

みなさんは、「ミルクティーを作るときに、紅茶をカップに注ぐ前にミルクを入れるべきか、それとも、紅茶を注いだ後にミルクを入れるべきか?」という紅茶論争をご存知でしょうか? 

 

英国を二分すると言われているこの紅茶論争に関連する例を、R. A. Fisherという統計学者が1935年の『実験計画法』第2 章で取り上げています。そこでは、「ミルク先」/「ミルク後」の味の違いがわかるという女性の主張をどのように実験的に例証する(experimentally demostrate)かが論じられています。

 

その『実験計画法』第2 章では、8杯中4杯を「ミルク先」にして、残りの4杯を「ミルク後」にして、そして、ランダムな順序で女性に提示し、「ミルク先」/「ミルク後」を女性に当ててもらう、という実験例を述べています。ランダムな順序にする、というのが、この実験の重要な点です。この例は、「ランダム化実験」(「無作為化実験」)を入門者に説明する良例として愛されてきました。この紅茶実験の例は、現在では"The Lady Tasting Tea"と呼ばれています*1

 

私自身はこの実験例はほとんどが仮想や空想のものだと思っているのですが、「この話のもとになったエピソードが実際にあった」という説があります。R.A. Fisherの伝記であるFisher Box(1978, p.134)*2で、そのエピソードが紹介されています。そのエピソードは、統計業界では(おそらく)それなりに有名です*3

 

そういう背景のもとで、Ian Hackingという学者が、ランダム化実験とテレパシー実験との歴史的関連性に関する論文を1988年に書きました。ここでの話は、その論文のほんの些細な一部について疑問を呈するという話です...。

 

本題

Hacking(1988)*4(以下、「同論文」と呼ぶ)の最後(pp.450-451)では、R.A. Fisherによる紅茶実験の例と、そのエピソードが取り上げられています。その部分を読んでいて、以下の4つの点に関してちょっとおかしいように感じました。相当に細かいことで、「木を見て森を見ず」の指摘なのですが、以下にメモっておこうと思います。

  1. エピソードに登場する「被験者」の女性の名前を、”Muriel Bishop”としている(同論文, p.450)が、"Bristol"の間違いだろう。R. A. Fisherの伝記*5で書かれているエピソードの人物は、結婚前の名前は”Muriel Bristol”であり、また、結婚後は”Muriel Bristol Roach”と二重姓を名乗っている。少なくとも、Bristol博士が書いた論文や、Rothamsted Experimental Stationの年間レポートではそのように名乗っている。”Bishop”とは名乗っていない。
  2.  "a student of algae"(同論文, p. 450)とBristol博士をなぜか学生としているが、"researcher"の間違いだろう。Bristol博士は、博士号を取得後に、Rothamsted Experimental Stationで研究者として働いており、さらに、土壌藻類の分野では第一人者であった(と、後の論文で称されている)。Rothamsted Experimental Station在籍時は学生ではないだろう。
  3.  “Rothamstead”と綴っている(同論文, p.450)が、”Rothamsted”の間違いだろう。最後から2文字目の”a”は要らないと思う。
  4.  同論文では、”U”や”non-U”を流行らせたNancy MitfordをMuriel Bristol博士に重ね合わせて、R. A. Fisherが述べた紅茶実験の例を階級問題と関連付けて論じている。しかし、これは各個人の解釈による違いだろうが、『実験計画法』第2 章では、そこに登場する「被験者」の女性を、R. A. Fisherは否定的には捉えていないと私は思っている。紅茶をめぐる主張や論争を否定的に捉えるのではなくて、「科学」を「紅茶論争」にR. A. Fisherは喩えているのだと私は思っている。つまり、一時的で中間的な結論を反復して積み重ねていく(とR. A. Fisherが思っていた)「科学」を、過去から未来へと永遠に終わらないであろう「紅茶論争」に R. A. Fisherは喩えているのだと私は解釈している。私の解釈がひねくれているのかもしれないが、「被験者」を皮肉っているような同論文(pp.450-451)の解釈は奇妙さを私は感じる。

私のほうが勘違いしているものもあるでしょうが、なんか変な感じを受けたので、勢いに任せてメモりました。私の文章も、誤字脱字だらけなので、他人の相当に細かいことをとやかく言う資格はないのですが、結局、言ってしまいました。

*1:"The Lady Tasting Tea"のような名前になったのは、おそらく、この実験例の話がアメリカに輸入された後だと思われます

*2:Fisher Box, J., (1978), R.A. Fisher: The Life of a Scientist, John Wiley & Sons Inc.

*3:https://en.wikipedia.org/wiki/Lady_tasting_tea にも記載されています。

*4:Hacking, I. (1988), Telepathy: Origins of Randomization in Experimental Design, Isis, 79(3), pp. 427-451

*5:Fisher Box, J., (1978), R.A. Fisher: The Life of a Scientist, John Wiley & Sons Inc.

相関係数の大きさに対する目安の歴史的変遷

2022年3月15日 Googleドライブの権限変更のため,ファイルが共有されていませんでした.リンクを変更しました.

 

相関係数が0.7あれば、相関が高いと言える」

などの目安を、教科書や入門書で見かけたことは

ありませんか?

 

私は、ちょくちょく目にするのですが、

 どこの

 誰が

 いつ

言い出したのか、ずっと不思議に思っています。

 

下記のリンクにあるPDFファイルで、その歴史的

変遷を追ってみました。

相関係数の大きさに対する目安の歴史的変遷.pdf

相関係数の大きさに対する目安の歴史的変遷.pdf - Google ドライブ

長くてすみません。

上手にまとめることができませんでした。

 

今回調べたところでは、20世紀初頭のアメリカに

おける統計学や教育統計学の入門書において、

いくつかの目安が誕生したようです。

 

イギリスのGalton, K. Pearson, Spearmanなども

相関係数を多用していたのですが、

どうやら、そのような統計学ど真ん中の人々が

言い出したのではないようです。