つてとのブログ

遊戯王メルカリ相場とかいう意味不明な統計でなく、素朴な乱数で統計を取ってみる

 

こんにちは、たちつてとです。

今回は、最も理想的な状況において、つまり正規分布ができることがすでにわかっている

状況だと、前回行った検定たちはどのような結果を吐き出すか、調査しました。

やっぱり、理想的な状況でもこのくらいのデータ量がないといかん、みたいなことを

知っているというのは大事だと思いました。

 

理論物理学なんて理論と一致してるところが大前提であり出発点で、状況が

「ほんのちょっとずれたらどうなんの」って研究ばかりですし...(偏見?)

何にしてもにわか統計学修学者が、メルカリ金額の統計とかいう、

性質がひん曲がってそうなデータを解析するのは、時期尚早だったと言わざるおえん...

 

イントロ.調査内容

目的

本当の目的は、↑の手順で得られた「不完全な正規分布」に対して

検定を行うことです。サンプルが少ないと、「正規分布」の形は崩れますが、

我々としてはサンプルを増やすと、正規分布になることを知っているので。

そこで、「不完全な正規分布」に検定をかましたときにその結果って信じられるの〜?

って感じで。

しかし、検定云々は長くなりそうなので次回の記事で。

 

 

今回の手順

「コインをM回投げて表の回数を記録した」、をN回やりました。

以下が詳細な手順になります。

  1. 「0」か「1」を返してくれる乱数をふる
  2. M回これを繰り返す
  3. 「0」or「1」を記録し、足し算していく
  4. 1〜3の手順をN回繰り返す
  5. 4で出来上がったN個のデータについて確率分布をとる

 

何でMとかNとか抽象的に書くねん!!!というツッコミはもっともなんですが、

M,Nの値を適当に変えてみて、分布がどう整っていくかみたかったんです。

 

方法

C++っていうプログラミング言語でプログラムを作りました。

乱数は、メルセンヌツイスタというやつです。←僕は正直理解してないです。

大事なのは、一様乱数という等確率である数字を返してくれる乱数を使用した

ってことですかね。コインの裏表とかさいころとかのイメージで。

調査結果

サンプル数Nを増やした場合

f:id:tachitutetoNosuke:20210915200953p:plain

はい、結果です。まずサンプル数Nを増やしてみました。

ご覧と通り、サンプル数が多い方が綺麗な山の形をしています。

サンプル数10くらい(紫)だと、各値に一回しか値が入らないんですね。

それで1/10=0.1って値になってる。それでも、横軸=50回りくらいのところで

0.2の値ですから、めちゃくちゃ大雑把には山の形を予言してる(、かな?)

サンプル数100くらいだと、もう形ができてきてますね。

最後、サンプル数10000だと綺麗に正規分布でフィッティングできる。

今回はgnuplotの最小二乗法にお世話になってます。

 

【補足】

フィッティング(fitting)というのは、実験データに関数を合わせてみることなんです。

下記にお話しするように、関数形を

f(x)=ax+b

のように決めて、そのパラメータであるa,bを決めるって処理です。

上述の最小二乗法は、まあここでいうa,bを(1,2)の組み合わせがいいか

(100,20)の組み合わせがいいかっていうのを決めてくれる便利な方法です。

【補足ここまで】

 

もちろん、関数形は

f(x)=\frac{1}{\sqrt{2\pi \sigma^2}}\exp{\left(-\frac{(x-\mu)^2}{2\sigma ^2}\right)}

で、平均値\mu標準偏差\sigmaがフィッティングパラメータです。

 

f:id:tachitutetoNosuke:20210918090238p:plain

値打つのだるいので、画像で

平均(m)50くらい、標準偏差(s)は5くらいですね〜、

(平均50は、0,1の乱数を100回降って足し算してるでわかりやすいですね。

分散もなんか真面目に考えたら出るはず...

大学の物理演習でさいころの分散出してた気がしたので、同じ要領で...なんか...)

 

足し算の回数Mを変えてみた場合

はい、お次。色とサンプル数は↑の図と同じ。

    ↓M=50を固定

f:id:tachitutetoNosuke:20210915204158p:plain

 

    ↓M=200を固定

f:id:tachitutetoNosuke:20210915204143p:plain

なんか...あんまりわからへんな...

水色の点のサンプル数は、最初の図と同じ10000サンプルなんですが、

なんか足し算の回数M変えても、だいたい綺麗に山の形できてますかね...

 

要は、データの分散と分布が正規分布の形に収束するスピードとの関係を

問うているんですが、これじゃわかんないですね(あきらめ)

 

でも、データの分散めちゃでかいと、↑サンプル数N増やした場合の時の

N=10,M=10の時みたいに、まともに分布作れないのでは?

→分散大きいと、収束遅い?

って思ったんですが...

 

はい

   N=10000,M=100000

f:id:tachitutetoNosuke:20210915205800p:plain

やってみました。山の形はできてますね。しかし、今度はビン幅の問題が...

いや待てよ。僕のいう正規分布への収束っていうのは何のことだ...?

左右非対称だった分布が、サンプル数→∞で正規分布のことか...?

それとも↑みたいなある値周りで、値にばらつきがあるせいで

帯みたいに見えるのが、線に見えるようになることか...?

 

多分前者だよな...。統計学って後者の話ってどうしてるんだっけ。

これだからにわか統計修学者は...

 

中心極限定理とかちゃんと勉強した方良さげ...orz