つてとのブログ

【統計学】いわゆる平均値と標準偏差の由来とは

 

イントロ

統計学なんて言葉をわざわざ出さなくても、(標準偏差はおいといて)平均というものは日常的に慣れ親しんだものですよね。いや全然?という方も、無意識のうちに使ってるんじゃないかな、と思います。例えば、テストの平均点、月の出費の平均、ブラッド・ローズ・ドラゴンの平均価格とかですね!

 

また、ご存知ない方もいらっしゃるかもしれませんが、

分散(標準偏差)というのは、データのばらつき具合を表す量になります。

 

tachitutetonosuke.hatenablog.com

 

簡単にですが、定義については↑リンクで紹介しています。

 

tachitutetonosuke.hatenablog.com

 

 分散(標準偏差)の図的な理解は↑で。

 

定義をかき直そうかと思いましたが、一度忘れてください笑。

さて、そんな平均値と分散ですが、どうしてこの量たちはイケてるのか、あまり考えたことがありませんでした。

 

今回、どのような過程でこれらの統計量が出現するのかを明らかにします。

 

証明

前提として、データx_1,x_2,...,x_nがあり、真の値\muがあるとします。

この時、(天下り的ですが)次の量F(\mu)を考えてみましょう

\displaystyle{F(\mu) = \sum_{i=1}^{n}(x_i-\mu)^2}

1.真の値からのずれを2.データの数だけ和をとる、

ということをしています。ただし、ただの真の値からのずれではなく、

その二乗というのがミソであり(、わかりにくいとこではあり)ます

 

それぞれのx_iが真の値\muに近いと、この量は小さくなります。

さらにいうと、このFという量が0のときというのは、各x_iにおいて

x_i = \mu

となるときに、実現します。理由は単純で

(x_i-\mu)^2 \geq 0

だからです。

小難しく見えますが、何かの二乗というのは正か0です、と言ってるだけです。結局、この量は、真の値からのずれ、誤差のようなものだと思うのが自然でしょう。

 

それで、この誤差F(\mu)を小さくするとき、\muにどのような制限が課されますか?ということを調べます。

 

少し計算をしてみます。実は、二乗のかっこを外すだけなら中学生でもできます。

F(\mu)=\displaystyle{\sum_{i=1}^{n}(x_i^2 - 2x_i\mu + \mu^2})

で、実は一番最後の項は少し簡単にできます。

\muというのは、10とか1200などの定数なので

\displaystyle{\sum_{i=1}^{n}\mu^2 = \mu^2 \sum_{i=1}^{n} = n\mu^2}

\mu^2を総和処理(シグマ記号)の前に出して

n回足したという風に変形できます。同様にして二項目の\muも前に出せますから

\displaystyle{F(\mu)=n\mu^2 -2\mu \sum_{i=1}^{n}x_i + \sum_{i=1}^{n}x_i^2}

お次は少し賢いことをします。前の二項をみていただきたいのですが

F(\mu)は、\muについて二次関数(x^2+x+5みたいな奴ら)で

あることがわかるので、平方完成という変形をします。

F(\mu)=\displaystyle{n\left(\mu-\frac{1}{n} \sum_{i=1}^{n}x_i\right)^2+ \sum_{i=1}^{n}x_i^2 - \frac{1}{n} \left(\sum_{i=1}^{n}x_i\right)^2}

多分、何が起きたかさっぱりな方もいるかと思いますが

すごく技術的なことなんで、割愛。少し変形します。

F(\mu)=\displaystyle{n\left(\left(\mu-\frac{1}{n} \sum_{i=1}^{n}x_i\right)^2+ \frac{1}{n}\sum_{i=1}^{n}x_i^2 - \frac{1}{n^2} \left(\sum_{i=1}^{n}x_i\right)^2\right)}

はい、ここで記憶力の良い方は、統計量が出現していることがわかるのではないでしょうか。処理を続けます。F(\mu)\muについての二次関数なので、F(\mu)を小さくするには、真の値を

\displaystyle{\mu_{min} = \frac{1}{n} \sum_{i=1}^{n}x_i}

(今は強調するためにminという添字をつけました)

とすると、最も小さくなります。二次関数の外形はお椀型なのでその最小値は、お椀の底になります。

 

さあ、いよいよ終幕です!

F(\mu_{min}) = n\left(\displaystyle{ \frac{1}{n}\sum_{i=1}^{n}x_i^2 - \frac{1}{n^2} \left(\sum_{i=1}^{n}x_i\right)^2} \right)

と変形できるので

\sigma^2 \equiv \displaystyle{ \frac{\displaystyle{\sum_{i=1}^n x_i^2}}n} - \mu ^2

という量(ってかいわゆる分散)を導入すると、

F(\mu_{min}) = n\sigma^2

とかけます。

 

結論

数式並べてごちゃっとかきましたが、

結局、二乗誤差の総和F(\mu)を最小にする真の値の見積もり方が

\mu \equiv \displaystyle{ \frac{\displaystyle{\sum_{i=1}^n x_i}}n }

です。それで、最小にするものの、それでも二乗誤差として残ってしまう量が

n\sigma^2

という量になります。

【余談?】

分散にnかかってるのはなんやねん、と思った方。

これは定義の問題で、最初にF(\mu)をnで割った形にすると

スッキリするかもしれません。

意味的には、データが(nが)増えると誤差も(Fも)増えるよ

といっているだけです。

【余談ここまで】

 

なんとシンプルで綺麗な流れでしょうか!

平均値と分散(標準偏差)はこんな側面を持つんだよ〜って記事でした!