「店主のブログ 紅茶が先か、ミルクが先か?」に対するコメント

致命的な誤りの修正:2015年10月3日 午後

2015年10月3日の朝に記載しました以下のブログにおいて、データ収集および確率計算に、致命的な間違いがいくつかありました。

 

まず、以下の語句で誤りがありました。

 (誤)推定 → (正)推測

 (誤)幾何分布 → (正)負の二項分布

特に、ふたつ目の誤りは統計関係者として恥ずかしいものです。

また、確率パラメータが0.5の負の二項分布に基づいて、10回成功するまでに1回だけ失敗したときの片側検定の確率計算を大きく間違えていました。

  0.5 ^ 10 + 10*0.5^11

とすべきところを、

  0.5 ^ 11 + 10*0.5^11

としていました。

さらに、そもそもデータの収集方法が間違えていました。検索キーワードを、"tea with milk"とすべきところを、"milk with tea"としていました。"tea with milk"として分析をしなおしました。

以下の本文では、修正前のものは一重線で打ち消し、その後に修正後のものを表記しています。

いずれも初歩的な間違えであり、たとえ相当に急いでいたとはいえ、統計関係者として恥ずかしいものです。お詫び申し上げます。あまりにも間違いが多いので全部を削除したいのですが、「こういった間違いをするのだ」という反面教師の例として残しておきます。また、さらに何か間違いがございましたら、お手数ですがご連絡いただければ幸いです。

本文

以下のブログにおける「統計的」な部分について、コメントしたい。

母集団・標本・推定推測

上記ブログにおける「母集団は多ければ多いほど、統計学的には結果の信憑性が増します。」は、「標本の大きさは大きければ大きいほど」の誤記であろう(といっても、現実には、標本を大きくしたからといって、必ずしも精確さが増すわけではない)。

近代統計学の標本調査と呼ばれている分野では、全体から一部分を抽出し、その一部分をもとに全体像を想像する。専門用語で、

 「全体」のことを「母集団」、

 「一部分」のことを「標本」、

 「想像する」ことを「推定する推測する

という。

推定はどんな標本からも行えるわけではない。「無作為抽出」と呼ばれる手法で母集団から標本を抜き出したときに限り、標本から母集団を推定する推測するのに統計手法が使えるようになる。標本が無作為抽出されたものでないときには「選択バイアス」のために、統計分析は(もし行えるとしても)非常に複雑怪奇なものとなる。

以上のことを踏まえて、以下の2つの点を指摘しておきたい。

母集団の設定がおかしいのでは?

第1に、今回の調査では、母集団の設定がおかしい。おそらく、今回の「店主のブログ」における調査における母集団は、「Googleのクロールで蓄積された画像」であろう。我々が本当に知りたいのは、写真がどうなっているかではなく、人々がミルク先/ミルク後のどちらを採用しているかではないだろうか? 筆者が見た限り、Google検索の先頭にくるのは、プロが撮影した素材である。一般の人々が日常生活で行っている作業と、プロが撮影した写真とのあいだには乖離があるのではないだろうか?

標本が無作為抽出ではない

第2に、今回の標本は無作為抽出ではないので、調査結果を一般化できない。Googleの検索結果として表示される順序は無作為ではなく、(筆者が知る限り)クロールとページランキングと呼ばれている方法でランク付けされたものである。そのため、検索結果の一部から、全体像を想像するのは相当に危険である。

Googleにあまり頼るべきではない

Googleの検索は非常に便利な機能であるが、検索にヒットした数で物事を判断するのに統計学の手法を用いるのは難しい。それは、駅前アンケートやテレビの街頭アンケートに統計手法を適用するのが不可能に近いのと同じである。

それでも、あえて計算すると...

以上のような理由で、統計手法は使えない。しかし、あえて統計分析をしてみた。

ミルク先/ミルク後のいずれかが10件となるまでに”milk with tea”"tea with milk"をキーワードとした画像検索の結果を先頭から数えたところ(2015年10月3日朝2015年10月3日昼)、

 「ミルク先」が1件0件

 「ミルク後」が10件

 いずれにも判別不能が105件50件

であった。言い換えると、ミルク後が10件に達するまで画像を上から見ていったところ、ミルク先が1件0件であり、判別不能が105件50件であった。

もしも、ミルク先/ミルク後が50%/50%の確率でランダムに出現すると仮定すれば、今回のデータ以上に極端なことが起こる確率は0.54%0.098%(=0.5^10)である*1。この確率は相当に小さいので、ミルク先/ミルク後は半々の確率でランダムに出現しているとは言えないだろう。

このことから、Googleにて”milk with tea””tea with milk”というキーワードで画像検索した場合、先頭にくる画像は「ミルク後」のほうに偏っていると言えるだろう。ただし、くどいようだが、母集団の設定が曖昧で、かつ、無作為抽出ではないから、この結果が意味するところを解釈するのは難しい。

 代替案はあるのか?

ミルク先/ミルク後のどちらを人々が採用しているのかをカウントする方法について、良い方法を筆者は知らない。もちろん、公共性の高い学術調査では選挙人名簿や住民基本台帳から、無作為抽出をして調査を行っている。しかし、予算的にも、倫理的にも、制度的にも、紅茶のミルク先/ミルク後を聞くために、そのような無作為抽出の調査は行えないだろう。正式な調査が行えないことが、無限の議論を引き起こす源になっているのかもしれないと思った。

王立化学協会に対する反論となっているのか?

最後に、今回の「店主のブログ」における主張は、王立化学協会に対する反論にはなっていないと筆者は思う。王立化学協会の目的は、”the perfect cup of tea”の作り方を制定することであり、「どちらの方法が多く採用されているか?」を調べることではないし、また、「マナー上でどちらが良いか?」を追求しているわけではない。多数派が採用している行儀正しい方法が必ずしも良い方法とは限らないだろう。

*1:50%/50%の仮定のもとで、幾何分布負の二項分布と呼ばれているものに従う。