技術とか戦略とか

証券レガシーシステムを8年いじってから転職した普通の文系SEによるブログ。技術のみではなく趣味の戦略考察についても。

情報処理技術者試験対策「分散・標準偏差・正規分布」

今回は統計数学の中から「分散・標準偏差正規分布」について投稿します。

 

分散と標準偏差は、共にデータのばらつき具合を示す値です。
分散は、各データについて平均との乖離を2乗した値を求め、その値を合計し、データ数で除すことで求められます。
標準偏差(σ)は分散を元データと同じ単位に直したもので、2乗された値を元に戻すために分散の平方根を取ります。
計算式は以下の通りです。

 f:id:akira2kun:20180729185007j:plain

 

正規分布は、データの生起確率について最もありそうな値を示したものです。
正規分布では下記図の通り、平均±1σの範囲内のデータが発生する確率は68.26%、平均±2σは95.44%、平均±3σは99.74%となっています。

 f:id:akira2kun:20180731231451j:plain

ただし、実際のデータ計測では、必ずしも正規分布通りにならないということに注意が必要です。

 

以下は、筆者が乗る通勤時間帯の電車の遅延時間について、平均・分散・標準偏差を求め、何分の遅延を見込めば遅刻しないのかを計算したものです。

 f:id:akira2kun:20180729184353j:plain

このように、統計の知識は意外と身近な所でも役立てることができます。
身近な所で練習がてら統計を使えば、知識の定着も容易になると思います。
-------------------
目次

https://1drv.ms/b/s!AivF3bzWXOzuhG1Xk5hscKYqkLkM


「分散・標準偏差正規分布」は今流行りの機械学習を行う上での前提知識の一つであるため、今回の記事で取り扱いました。
たまたま使う機会があったというのも大きいですがw
今回の図はいつにも増して汚くて申し訳ありません。気が向いたら直します。
 
情報処理技術者試験に関しては、優先して記事にしたいことは一通り記事にしました。
今後別のネタを探すので、しばらくの間は更新頻度が下がります。
 
とりあえず、過去に投稿・発表したことを記事にしていこうかと考えています。