数学・統計学

分散と標準偏差|データのひろがりと「データ数-1」の理由

投稿日:2016年3月8日 更新日:

 

前章では『データの中心を示す指標』として「平均値」と「中央値」を説明しました

 

今回は『分散と標準偏差/データのひろがりと”データ数ー1”の理由』として、

「どれだけデータ(分布)がばらついているのか」の指標となる「分散」と「標準偏差」について説明したいと思います。

Variance-standard deviation

スポンサーリンク

ad



分散と標準偏差|データのひろがりと「データ数-1」の理由

分散と「データ数-1」の理由

 

繰り返しになりますが、「分散」とは「データの広がりを示す指標」です。

わかりやすくするために、再びブラック企業の5人に登場してもらいましょう。

 

給与体系は

 フリーター  ⇒ 年収100万円

 新入社員   ⇒ 年収200万円

 係長     ⇒ 年収300万円

 部長     ⇒ 年収400万円

 社長     ⇒ 年収2,000万円

 平均値600万円、中央値300万円

でした。

 

ここで「偏差」を考えます。

「偏差」とは、「個々のデータと平均値との差」を示す指標です。

 

例えば、フリーターさんの偏差は「(自分の年収100万円)ー(平均600万円)= -500万円」となります。

同じように、新入社員さんは -400万円(=200-600万円)、係長さんは -300万円(=300-600万円)、

部長さんは -200万円(=400-600万円)。

 

 

では、社長さんの偏差はいくつでしょう?

もう簡単ですよね。 +1,400万円(2,000-600万円)です。

 

 

まとめると、偏差は

 フリーター  ⇒ -500万円

 新入社員   ⇒ -400万円

 係長     ⇒ -300万円

 部長     ⇒ -200万円

 社長     ⇒ +1,400万円

です。

 

 

そして、これらすべてをまとめてバラツキを考慮した指標が「分散」になります。

ただし、社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと0になってしまいます

そこで、それぞれの「偏差」の値を2乗(:同じ値を2回かけること)して、符号をすべてプラスに統一します。

 

すると

 フリーター  ⇒ (-500万円)×(-500万円)=(-500万円)= 250,000

 新入社員   ⇒ (-400万円)×(-400万円)=(-400万円)= 160,000

 係長     ⇒ (-300万円)×(-300万円)=(-300万円)= 90,000

 部長     ⇒ (-200万円)×(-200万円)=(-200万円)= 40,000

 社長     ⇒ (1,400万円)×(1,400万円)=(1,400万円)= 1,960,000

2乗したので、もう単位を「万円」としてはいけません

あえて表現するなら「万円2」になります。

 

そして、この「偏差を2乗した値をすべて足した値」を「偏差平方和」といいます。

偏差を2乗(=平方)して足す(=和)から「偏差平方和」です。

 

この「偏差平方和」のままでは、従業員の数(=データの数)が多くとなると、

ばらつきの大きさに関係なく「偏差平方和」の値も大きくなってしまいます

 

そこで、偏差平方和を「従業員の数(=データの数)から1を引いた値」で割って、

データ数に見合った値に補正してあげます。

これこそが「分散」なのです。

 

 

まとめると

分散=(偏差平方和)÷(データ数ー1)

=(偏差を2乗した値の総計)÷(データ数ー1)

=(各データの平均値との差を2乗した値の総計)÷(データ数ー1)

となります。

 

 

ここでよくされる質問があります。

「なぜデータの数から1を引くのですか?」という素朴にして、簡単には答えられない質問です。

 

これにきちんと回答するには、カイ二乗分布の説明から入って、多次元正規分布、ヤコビアン、直行変換…と

誰にも読んでいただけない記事になってしまうので、簡単・端的・抽象的にお答えします。

 

まず、「偏差」の説明のところで、偏差をすべてそのまま足すと

『社長さんだけがプラスの値で、他の方がマイナスとなり、符号がバラバラで、そのまま足すと0になってしまいます』

と述べたと思います。

 

ということは、平均値さえわかっていれば、別に社長さんの年収がわからなくても困らないわけです。

言い換えると、社長さんの年収は他の方の年収を使って表現できる…ということになります。

 

数式的には、「社長さんの年収」という1つの変数を省略できるのです。

統計的に言い換えると、偏差の総和が0になるという制約により自由度が1つ減るとなります。

 

実際に「偏差平方和」を分解していくと、データ数よりも1つだけ少ない足し算に変換できます。

もしも制約条件が2つあれば(データ数ー2)、3つあれば(データ数ー3)と増えていきます。

それに対応して、数式も2、3つと項を省略できるようになります。

 

 

以上の説明で少しは納得していただけたでしょうか。。。

できるだけわかりやすさを追求したつもりではいるのですが…。。。

 

もし納得できない場合には、もう1を引くことなんて忘れてしまいましょう。

別に日常生活で不利益をこうむることはありません。

スマホだって原理はわからないけれど、使うことはできますw

料金が高すぎると思っても使うことはできるのです…。

 

次は、「標準偏差」です。

もうお疲れだと思いますので、簡潔に終わらせます。

スポンサーリンク

ad



標準偏差とは?

 

「分散」では符号を統一するために「偏差」を二乗したため、単位が「万円2」という気持ち悪いものになってしまいました。

このままでは気持ち悪さに加え、数値自体も大きくなってしまうので「分散」の平方根をとろうと誰かが考え、

それが「標準偏差」と呼ばれるようになりました。

 

つまり、「標準偏差」=「分散」の平方根

ここで、「平方根」というのは、「平方(2乗)する前の値」のことです。

25の平方根は、±5(:25=5×5、または25=(-5)×(-5))です。

同じく16の平方根は±4(:16=4×4、または16=(-4)×(-4))です。

 

つまり、2乗しちゃったから、最後に平方根をとって帳尻を合わせよう…というだけです。

これで単位が「万円」に戻って一件落着ですね。

 

以上、『分散と標準偏差/データのひろがりと”データ数ー1”の理由』でした!

最後までお読みいただき、ありがとうございました<(_ _)>

スポンサーリンク

ad



「分散と標準偏差 データのひろがりと「データ数-1」の理由」まとめ

・偏差   :個々のデータと平均値との差

・偏差平方和:偏差を2乗した値をすべて足した値

・分散   :(偏差平方和)÷(データ数ー1) ⇒ 単位がデータの2乗のバラツキの尺度

・標準偏差 :分散の平方根 ⇒ 単位がデータと同じバラツキの尺度

※ データから1を引く理由:偏差の総和が0になるという1つの制約条件により自由度が1だけ減るから(覚える必要なし!)

ad



ad



-数学・統計学
-統計, 数学

Copyright© 科学情報誌(HOME) , 2024 AllRights Reserved.