Mukai Systems

だまされないためにだます方法を知る——「統計でウソをつく法」

世の中は誤った統計で溢れている。中には悪意のあるものも少なくないだろう。本書は、豊富な例を用いてそのような統計を見抜くための考え方を授けてくれるものである。

本書で学んだ「誤った統計」についての例をAIによって生成させてみたので以下に示す。

偏ったサンプル

統計が意味を持つためにはサンプルが偏ってはならない。

例えば、学生の一日の勉強時間を調査するのに、図書館で勉強してる学生から無作為に選ぶのは明らかに勉強熱心な学生にサンプルが偏っているといえるだろう。

このサンプルによってわかるのは「図書館で勉強する学生」の「一日の勉強時間」にほかならない。

この場合に適切なサンプルを得るには、学生名簿から調査する生徒をランダムに選択するといったことが必要である。

不適切な平均

平均の取り方には様々な方法がある。

データの特性や分布を無視して平均を計算すると誤った結論が導かれてしまう。

例えば、ある地域の年収を調べたいとする。

住民A:480万円
住民B:500万円
住民C:600万円
住民D:5億円

算術平均を用いてしまうと、大富豪の収入が他の住民よりも非常に高いため、平均値が実際の住民の収入状況を適切に反映できない。(この地域の平均的な住民は年1億は稼いでいる!)

この場合は中央値を用いる事によって、この地域の住民の収入状況を適切に反映できる。

不十分なサンプル

サンプルサイズの大きさは非常に重要である。逆に、サンプルサイズが小さければどんな結論でも導き出せてしまう。

例えば、ある新しい薬の効果を評価するために臨床試験を行った結果次のようなことが分かったとする。

対象者数: 10人
結果: 7人に改善が見られた

10人というサンプルサイズは非常に小さく、結果が偶然によるものである可能性が高い。小さなサンプルサイズでは、結果の変動が大きくなるため、統計的な信頼性が低下する。これにより、薬の効果についての一般的な結論を導き出すことは誤りである。

さらに、限られた数の参加者では、年齢、性別、民族、基礎疾患などの変数を十分にカバーできないため、結果を広い範囲に適用することが困難である。

相関と因果の置き換え

相関と因果関係を混同することは、統計分析やデータ解釈において一般的な誤りである。

相関関係: 二つの変数が統計的に関連していることを意味するが、これは必ずしも一方が他方の原因であるとは限らない。
因果関係: 一方の変数(原因)が他方の変数(結果)に変化をもたらす関係である。

例えば、「夏季にはアイスクリームの販売量が増え、同時に水難事故の発生率も上昇する」という相関関係が観察されたとする。

これを「アイスクリームの販売量が増えることが水難事故の増加を引き起こす」と結論づけることは誤りである。ここでの相関関係は、共通の原因(夏季の気温の上昇)によって引き起こされているだけで、暑い天候は、アイスクリームの消費を促進し、同時に人々が水辺での活動に参加することを増やすため、水難事故のリスクが高まっているだけである。


いかがだっただろうか。これらを組み合わせることによってどんな結論でももっともらしい統計によって導き出せそうな気がしないだろうか。

最後に、私が最近みた面白い広告を紹介して終わりにしたいと思う。

メンズTBCに1年以上通われている方651名対象、2020年12月20~2021年2月28日アンケート実施結果。

See also