SEの読み書きそろばん

中年SEがキャリアアップの為に資格取得をしている日記です。

【統計検定】学習18日 - 分散と偏差を深く掘り下げてみました。

2018年9月30日 残り57日

f:id:limit6577:20180921054137j:plain

 

分散に関して理解が不十分なので、参考書を読むのではなく理解を深めてみようと思います。

 

そもそも統計とは

手元にあるデータの特徴や傾向を捉えるのが目的。

また、特徴同士を比較するのも目的の一つになります。

より的確に捉える事で、データの結果を次に活かすのが目的です。

その為、いくつかの評価方法があります。

 

根本的な事を考えないで分散や偏差を字面だけで捉えていたので、なぜこの計算が必要なのかを理解していませんでした。

 

平均値

一番簡単な傾向や特徴は平均値。

例えば、学習内容の定着度を測る為を英語と数学でテストを行なった時に、平均を取る事で科目毎の学習の定着度を測る事が出来ます。

 

英語 76 85 79 56 92 78 83 45 87 47 94 96
数学 32 83 82 55 91 77 94 98 73 56 95 85

 

どちらのクラスの方が学習内容の定着度が低いか?

一見すると分かりにくいですがが平均点を取ると英語は76.5 数学は76.75となり英語の方がわずかに高い事ですがほぼ差が無いと判断できます。。

ただ、差がないと評価してしまうには、若干違和感があります。

例えば、数学には32点の生徒もいるので定着度が低いのではないか?とも判断できます。

 

偏差と分散 

偏差は個別の観測値について評価します。 

例えば、最初の表の英語の左から3番目は79点です。

平均点は76.5点なので、偏差は2.5となります。

 

分散は全体を捉えて傾向を見ます。

算出方法は以下になります。

S^2 = \{ (x_1 - \overline{x})^2+ (x_2 - \overline{x})^2(x_3 - \overline{x})^2+ ・・・(x_n - \overline{x})^2 \} \div n

 

下記の様にも表せます。

S^2 = \displaystyle \frac{1}{n} \sum_{i=0}^n (x_i - \overline{x})^2

 

実際に英語、数学がどの様になるか計算して見ます 

 

英語

S^2= \{ (76-76.5)^2 + (85-76.5)^2 +(79-76.5)^2 +(56-76.5)^2 +(92-76.5)^2 +

(78-76.5)^2 +(83-76.5)^2 +(45-76.5)^2 +(87-76.5)^2 +(47-76.5)^2 +

(94-76.5)^2 +(96-76.5)^2   \}\div 12 = 286.91

 

数学

S^2= \{ (32-76.5)^2 + (83-76.5)^2 +(82-76.5)^2 +(55-76.5)^2 +(91-76.5)^2 +

(77-76.5)^2 +(95-76.5)^2 +(97-76.5)^2 +(73-76.5)^2 +(56-76.5)^2 +

(95-76.5)^2 +(85-76.5)^2   \}\div 12 = 500.31

 

この値が、分散になります。

この値が大きければ、データのばらつき具合が高い事を示します。

 

ただ、これでは観測値との差が大きくて捉え難いので平方根をとります。

英語 S=16.938

数学 S=22.367

この値が標準偏差になります。

 

分散・標準偏差を見ると、学習内容の定着度は数学の方がバラツキが多い事が分かります。

標準化

より小さい値で捉えた方が判断しやすいケースもあります。その場合は標準化を行います。

 

以下の式になります。

z_i = \frac{x_i-\mu}{\sigma}

標準化変量 = \frac{観測値-平均}{標準偏差}

例えば、表の左から3番目の人の英語の値を使用すると

\frac{79-76.5}{16.938} =0.147 

 

となります。これを全てに適用すると以下の表になります。

 

英語 -1.85 -1.75 -1.21 -0.02 0.08 0.14 0.38 0.5 0.6 0.9 1.03 1.15
数学 -2.00 -0.97 -0.92 -0.16 0.01 0.23 0.27 0.36 0.63 0.81 0.81 0.90

 

今回はテストの平均が同じくらいにしてしまったので分かり難いのですが、科目毎に難易度が異なる場合、例えば英語の平均点は76点だが数学は56点だった。

といった時に標準化によって科目毎の散らばり具合がどの程度かを比較しやすくなります。 

 

データ作りを失敗してしまいました。

 

学習教材

日本統計学会公式認定 統計検定3級対応 データの分析

日本統計学会公式認定 統計検定3級対応 データの分析

  • 作者: 藤井良宜,竹内光悦,後藤智弘,日本統計学会,竹村彰通,岩崎学,美添泰人
  • 出版社/メーカー: 東京図書
  • 発売日: 2012/07/07
  • メディア: 単行本(ソフトカバー)
  • 購入: 1人 クリック: 65回
  • この商品を含むブログ (7件) を見る
 

 

 

日本統計学会公式認定 統計検定 3級・4級 公式問題集[2014〜2016年]

日本統計学会公式認定 統計検定 3級・4級 公式問題集[2014〜2016年]