技術とか戦略とか

SIerで証券レガシーシステムを8年いじってからSESに転職した業務系エンジニアによる技術ブログ。

統計データを読み取る際に注意するべきこと

物事を定量的に語る上で、統計データは大きな武器になります。
しかし、この統計データが正確に計測されたもの、かつ作為的に計測されていないものであるとしても、解釈次第で誤った結論に至ってしまうことがあります。
 
この記事では、誤った結論に至ってしまう以下の2点の要因について、説明していきます。
 
1.前提条件の読み誤り
2.因果関係の読み誤り
 
----
 
【前提条件の読み誤り】
これは、統計データを実験で得ている場合に特に注意が必要になります。
 
例えば、ある画面で検索ボタンを押して結果が表示されるまでの時間が、実験により平均1秒であることがわかったとします。
しかし、実際に運用した際に平均1秒で結果が表示されるとは限りません。
実際の運用では、複数ユーザーによるシステム利用や裏で動いているバッチ処理により、危機に負荷がかかっている可能性があるからです。
この負荷により、2秒や3秒、あるいはそれ以上かかる場合が出てきます。
 
このような実験を行う際は、実運用に条件を近づけることが肝要になります。
例えば、疑似的に不可をかけるプログラムを裏で動かす、人を集めて同時にシステムを利用してもらう、といった、条件を近づけるための工夫が重要になります。
 
----
 
【因果関係の読み誤り】
これは、現実の活動から統計データを得ている場合に特に注意が必要になります。
 
例えば、交通事故注意の看板がある交差点では交通事故が多い、という統計データが得られたとします。
この統計データをもって、「交通事故を減らすためには交通事故注意の看板を減らすのが良い」という結論を導き出すのは危険です。
交通事故注意の看板の有無と交差点の交通事故の件数が関連している理由として、「交通事故注意の看板があると交通事故が増える」という理由以外にも、「交通事故が多い交差点に交通事故注意の看板を置いているため」という逆の因果関係の理由も考えられるからです。
看板には事故を減らす効果があり、事故を減らしてもなお看板があっても交通事故が多い、ということかもしれません。
(むしろ、そう考える方が自然でしょう)
 
このように、得られた統計データから因果関係を導き出したい場合は、そのような統計データとなった背景に考えを巡らせる必要があります。