前章では『データの中心を示す指標』として「平均値」と「中央値」を説明しました。
今回は『分散と標準偏差/データのひろがりと”データ数ー1”の理由』として、
「どれだけデータ(分布)がばらついているのか」の指標となる「分散」と「標準偏差」について説明したいと思います。
スポンサーリンク
分散と標準偏差|データのひろがりと「データ数-1」の理由
分散と「データ数-1」の理由
繰り返しになりますが、「分散」とは「データの広がりを示す指標」です。
わかりやすくするために、再びブラック企業の5人に登場してもらいましょう。
給与体系は
フリーター ⇒ 年収100万円
新入社員 ⇒ 年収200万円
係長 ⇒ 年収300万円
部長 ⇒ 年収400万円
社長 ⇒ 年収2,000万円
平均値600万円、中央値300万円
でした。
ここで「偏差」を考えます。
「偏差」とは、「個々のデータと平均値との差」を示す指標です。
例えば、フリーターさんの偏差は「(自分の年収100万円)ー(平均600万円)= -500万円」となります。
同じように、新入社員さんは -400万円(=200-600万円)、係長さんは -300万円(=300-600万円)、
部長さんは -200万円(=400-600万円)。
では、社長さんの偏差はいくつでしょう?
・
・
・
もう簡単ですよね。 +1,400万円(2,000-600万円)です。
まとめると、偏差は
フリーター ⇒ -500万円
新入社員 ⇒ -400万円
係長 ⇒ -300万円
部長 ⇒ -200万円
社長 ⇒ +1,400万円
です。
そして、これらすべてをまとめてバラツキを考慮した指標が「分散」になります。
ただし、社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと0になってしまいます。
そこで、それぞれの「偏差」の値を2乗(:同じ値を2回かけること)して、符号をすべてプラスに統一します。
すると
フリーター ⇒ (-500万円)×(-500万円)=(-500万円)2 = 250,000
新入社員 ⇒ (-400万円)×(-400万円)=(-400万円)2 = 160,000
係長 ⇒ (-300万円)×(-300万円)=(-300万円)2 = 90,000
部長 ⇒ (-200万円)×(-200万円)=(-200万円)2 = 40,000
社長 ⇒ (1,400万円)×(1,400万円)=(1,400万円)2 = 1,960,000
2乗したので、もう単位を「万円」としてはいけません。
あえて表現するなら「万円2」になります。
そして、この「偏差を2乗した値をすべて足した値」を「偏差平方和」といいます。
偏差を2乗(=平方)して足す(=和)から「偏差平方和」です。
この「偏差平方和」のままでは、従業員の数(=データの数)が多くとなると、
ばらつきの大きさに関係なく「偏差平方和」の値も大きくなってしまいます。
そこで、偏差平方和を「従業員の数(=データの数)から1を引いた値」で割って、
データ数に見合った値に補正してあげます。
これこそが「分散」なのです。
まとめると
分散=(偏差平方和)÷(データ数ー1)
=(偏差を2乗した値の総計)÷(データ数ー1)
=(各データの平均値との差を2乗した値の総計)÷(データ数ー1)
となります。
ここでよくされる質問があります。
「なぜデータの数から1を引くのですか?」という素朴にして、簡単には答えられない質問です。
これにきちんと回答するには、カイ二乗分布の説明から入って、多次元正規分布、ヤコビアン、直行変換…と
誰にも読んでいただけない記事になってしまうので、簡単・端的・抽象的にお答えします。
まず、「偏差」の説明のところで、偏差をすべてそのまま足すと
『社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと0になってしまいます』
と述べたと思います。
ということは、平均値さえわかっていれば、別に社長さんの年収がわからなくても困らないわけです。
言い換えると、社長さんの年収は他の方の年収を使って表現できる…ということになります。
数式的には、「社長さんの年収」という1つの変数を省略できるのです。
統計的に言い換えると、「偏差の総和が0になるという制約により自由度が1つ減る」となります。
実際に「偏差平方和」を分解していくと、データ数よりも1つだけ少ない足し算に変換できます。
もしも制約条件が2つあれば(データ数ー2)、3つあれば(データ数ー3)と増えていきます。
それに対応して、数式も2、3つと項を省略できるようになります。
以上の説明で少しは納得していただけたでしょうか。。。
できるだけわかりやすさを追求したつもりではいるのですが…。。。
もし納得できない場合には、もう1を引くことなんて忘れてしまいましょう。
別に日常生活で不利益をこうむることはありません。
スマホだって原理はわからないけれど、使うことはできますw
料金が高すぎると思っても使うことはできるのです…。
次は、「標準偏差」です。
もうお疲れだと思いますので、簡潔に終わらせます。
スポンサーリンク
標準偏差とは?
「分散」では符号を統一するために「偏差」を二乗したため、単位が「万円2」という気持ち悪いものになってしまいました。
このままでは気持ち悪さに加え、数値自体も大きくなってしまうので「分散」の平方根をとろうと誰かが考え、
それが「標準偏差」と呼ばれるようになりました。
つまり、「標準偏差」=「分散」の平方根
ここで、「平方根」というのは、「平方(2乗)する前の値」のことです。
25の平方根は、±5(:25=5×5、または25=(-5)×(-5))です。
同じく16の平方根は±4(:16=4×4、または16=(-4)×(-4))です。
つまり、2乗しちゃったから、最後に平方根をとって帳尻を合わせよう…というだけです。
これで単位が「万円」に戻って一件落着ですね。
以上、『分散と標準偏差/データのひろがりと”データ数ー1”の理由』でした!
最後までお読みいただき、ありがとうございました<(_ _)>
スポンサーリンク
「分散と標準偏差 データのひろがりと「データ数-1」の理由」まとめ
・偏差 :個々のデータと平均値との差
・偏差平方和:偏差を2乗した値をすべて足した値
・分散 :(偏差平方和)÷(データ数ー1) ⇒ 単位がデータの2乗のバラツキの尺度
・標準偏差 :分散の平方根 ⇒ 単位がデータと同じバラツキの尺度
※ データから1を引く理由:偏差の総和が0になるという1つの制約条件により自由度が1だけ減るから(覚える必要なし!)