分散と標準偏差｜データのひろがりと「データ数-１」の理由

前章では『データの中心を示す指標』として「平均値」と「中央値」を説明しました。

今回は『分散と標準偏差／データのひろがりと”データ数ー１”の理由』として、

「どれだけデータ（分布）がばらついているのか」の指標となる「分散」と「標準偏差」について説明したいと思います。

Variance-standard deviation

分散と標準偏差｜データのひろがりと「データ数-１」の理由

分散と「データ数-１」の理由

繰り返しになりますが、「分散」とは「データの広がりを示す指標」です。

わかりやすくするために、再びブラック企業の５人に登場してもらいましょう。

給与体系は

　フリーター　　⇒　年収100万円

　新入社員　　　⇒　年収200万円

　係長　　　　　⇒　年収300万円

　部長　　　　　⇒　年収400万円

　社長　　　　　⇒　年収2,000万円

　平均値600万円、中央値300万円

でした。

ここで「偏差」を考えます。

「偏差」とは、「個々のデータと平均値との差」を示す指標です。

例えば、フリーターさんの偏差は「（自分の年収100万円）ー（平均600万円）＝ -500万円」となります。

同じように、新入社員さんは -400万円（=200-600万円）、係長さんは -300万円（=300-600万円）、

部長さんは -200万円（=400-600万円）。

では、社長さんの偏差はいくつでしょう？

・

もう簡単ですよね。 +1,400万円（2,000-600万円）です。

まとめると、偏差は

　フリーター　　⇒　-500万円

　新入社員　　　⇒　-400万円

　係長　　　　　⇒　-300万円

　部長　　　　　⇒　-200万円

　社長　　　　　⇒　+1,400万円

です。

そして、これらすべてをまとめてバラツキを考慮した指標が「分散」になります。

ただし、社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと０になってしまいます。

そこで、それぞれの「偏差」の値を２乗（：同じ値を２回かけること）して、符号をすべてプラスに統一します。

すると

　フリーター　　⇒　（-500万円）×（-500万円）＝（-500万円）²＝ 250,000

　新入社員　　　⇒　（-400万円）×（-400万円）＝（-400万円）²＝ 160,000

　係長　　　　　⇒　（-300万円）×（-300万円）＝（-300万円）²＝ 90,000

　部長　　　　　⇒　（-200万円）×（-200万円）＝（-200万円）²＝ 40,000

　社長　　　　　⇒　（1,400万円）×（1,400万円）＝（1,400万円）²＝ 1,960,000

２乗したので、もう単位を「万円」としてはいけません。

あえて表現するなら「万円²」になります。

そして、この「偏差を２乗した値をすべて足した値」を「偏差平方和」といいます。

偏差を２乗（＝平方）して足す（＝和）から「偏差平方和」です。

この「偏差平方和」のままでは、従業員の数（＝データの数）が多くとなると、

ばらつきの大きさに関係なく「偏差平方和」の値も大きくなってしまいます。

そこで、偏差平方和を「従業員の数（＝データの数）から１を引いた値」で割って、

データ数に見合った値に補正してあげます。

これこそが「分散」なのです。

まとめると

分散＝（偏差平方和）÷（データ数ー１）

＝（偏差を２乗した値の総計）÷（データ数ー１）

＝（各データの平均値との差を２乗した値の総計）÷（データ数ー１）

となります。

ここでよくされる質問があります。

「なぜデータの数から１を引くのですか？」という素朴にして、簡単には答えられない質問です。

これにきちんと回答するには、カイ二乗分布の説明から入って、多次元正規分布、ヤコビアン、直行変換…と

誰にも読んでいただけない記事になってしまうので、簡単・端的・抽象的にお答えします。

まず、「偏差」の説明のところで、偏差をすべてそのまま足すと

『社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと０になってしまいます』

と述べたと思います。

ということは、平均値さえわかっていれば、別に社長さんの年収がわからなくても困らないわけです。

言い換えると、社長さんの年収は他の方の年収を使って表現できる…ということになります。

数式的には、「社長さんの年収」という１つの変数を省略できるのです。

統計的に言い換えると、「偏差の総和が０になるという制約により自由度が１つ減る」となります。

実際に「偏差平方和」を分解していくと、データ数よりも１つだけ少ない足し算に変換できます。

もしも制約条件が２つあれば（データ数ー２）、３つあれば（データ数ー３）と増えていきます。

それに対応して、数式も２、３つと項を省略できるようになります。

以上の説明で少しは納得していただけたでしょうか。。。

できるだけわかりやすさを追求したつもりではいるのですが…。。。

もし納得できない場合には、もう１を引くことなんて忘れてしまいましょう。

別に日常生活で不利益をこうむることはありません。

スマホだって原理はわからないけれど、使うことはできますｗ

料金が高すぎると思っても使うことはできるのです…。

次は、「標準偏差」です。

もうお疲れだと思いますので、簡潔に終わらせます。

標準偏差とは？

「分散」では符号を統一するために「偏差」を二乗したため、単位が「万円²」という気持ち悪いものになってしまいました。

このままでは気持ち悪さに加え、数値自体も大きくなってしまうので「分散」の平方根をとろうと誰かが考え、

それが「標準偏差」と呼ばれるようになりました。

つまり、「標準偏差」＝「分散」の平方根

ここで、「平方根」というのは、「平方（２乗）する前の値」のことです。

25の平方根は、±5（：25=5×5、または25=(-5)×(-5)）です。

同じく16の平方根は±4（：16=4×4、または16=(-4)×(-4)）です。

つまり、２乗しちゃったから、最後に平方根をとって帳尻を合わせよう…というだけです。

これで単位が「万円」に戻って一件落着ですね。

以上、『分散と標準偏差／データのひろがりと”データ数ー１”の理由』でした！

最後までお読みいただき、ありがとうございました<(_ _)>

「分散と標準偏差　データのひろがりと「データ数-１」の理由」まとめ

・偏差　　　：個々のデータと平均値との差

・偏差平方和：偏差を２乗した値をすべて足した値

・分散　　　：（偏差平方和）÷（データ数ー１） ⇒ 単位がデータの２乗のバラツキの尺度

・標準偏差　：分散の平方根 ⇒ 単位がデータと同じバラツキの尺度

※　データから１を引く理由：偏差の総和が０になるという１つの制約条件により自由度が１だけ減るから（覚える必要なし！）

分散と標準偏差｜データのひろがりと「データ数-１」の理由

分散と標準偏差｜データのひろがりと「データ数-１」の理由

分散と「データ数-１」の理由

標準偏差とは？

「分散と標準偏差 データのひろがりと「データ数-１」の理由」まとめ

「分散と標準偏差　データのひろがりと「データ数-１」の理由」まとめ