【鉄獣戦線 徒花のフェリジット】メルカリ相場の価格分布はやはり正規分布っぽくない話(確定編)【遊戯王】
イントロ.調査内容
こんにちは、たちつてとです。
前回、↓記事でQ-Qプロットというもので、鉄獣戦線 徒花のフェリジット
(以下、フェリさん)のメルカリ相場の金額分布が正規分布に従うか調査し、
まあ微妙な感じで終わりました。
tachitutetonosuke.hatenablog.com
今回は、Kolmogorov-Smirnov検定、Shapiro-Wilk検定っていう
よくわからない検定を主にRっていうソフトウェアがやってくれました。
この検定の内部処理は知りませんが、1秒くらいでできたので結果をおしらせします
(Rってすげえ...)。
以下では、ランク9,10の価格帯の出品金額帯を超高価格帯と呼びます。
超高価格帯ってなんやねんな方は、やはり↑記事をどうぞ。
まあ要は、典型的な出品の価格帯(8000円から12000円くらいまで)から
かなり外れた金額の出品です。今回は、18000円以上の価格帯。
結果
p-valueってところが大事なところ。
↑がKolmogorov-Smirnov検定で↓がShapiro-Wilk検定です。2.2e-16というのは、
0.00000000000000022と同じです(0が16個並んでるはず...)。
つまり、ほぼゼロやん!、です。
で、そのp-valueが0やったとして何が嬉しいの?ということなんですが。
検定
統計学でありがち(必須?)な考え方:「検定」というのは、
仮説を立てその仮説は間違っている/なんとも言えない、ことを調べる方法なんです。
もっというと、立てた仮説は何パーセントくらいであり得る、を調べます。
つまり、この確率が小さいと、この仮説ありえんやん!となるし確率が大きいと、
この仮説あり得るかもしれんな...となるわけです。検定とは、ざっくりこんな感じです。
お察しの通り、↑でいう確率が、p値=p-valueです。いや、0やないかい。という。
普通、否定したい仮説を持ってくるので、無に帰したい仮説というわけです。
今回は、「フェリさんのメルカリ相場金額は、正規分布に従う」です。
検定の結果、↑の通りp-valueがほぼ0ですので、仮説を無に帰することができます。
フェリさんのメルカリ相場金額は、正規分布に従わない
とは言え、確率なのでないことはない(現実的な値とは言っていない)。という感じですかね...
ちなみに、IBMのサイトにQ&Aがありました。
Q.[正規性の検定]テーブルに表示される、「Kolmogorov-Smirnov」と「Shapiro-Wilk」の違いはなんですか。
A.「Shapiro-Wilk」は50件程度のデータに特化した手法になりますので、少ないケース数に対して正規性の検定を行う場合は、こちらをご提示してください。
だそうな。
今回の結果は、超高価格帯のも含めて計算してもらいましたが、
超高価格帯のものを含めずに検定をしても、p-valueは現実的な値にはなりませんでした。
Kolmogorov-Smirnov検定の方が劇的に変わりました。しかしそれでも、現実的な値とは...って
感じですね。統計学では、しばしばp-value=0.05、つまり5%をしきい値にするみたいですが
それに比べるとやはり小さすぎますよね。
フェリさん金額の分布
最後に、分布を見ていただこうかと思います。
これまで見てきた度数分布を見ているような認識でOKです。
超高価格帯をのぞいた分布
さて、まず超高価格帯をのぞいて作った分布から見ていただきましょう。
下図の縦軸がやたら小さいのは、「規格化=度数をサンプル数で割る」
という処理をしてあるからで、あまり気にしないでください。
これまで通り、この金額が最も多い出品なんだな、少ない出品なんだな
という見方は変わりません。
平均値と分散(標準偏差)が計算できる時点で、正規分布自体はプロットできます。この超高価格帯をのぞいたデータ集団の平均値と分散からできる正規分布と、取得したデータから書ける分布の同時プロットが下図になります。
そこはかとなくあっているようには見えますが、あくまでそこはかとなくです。
↑の図にコメントした通り、安い金額帯は出品が多く、高い金額帯は少ない。
→正規分布は左右対称だが、データの分布は左右非対称になっている
ことがわかります。多分、出品者たちは13000円の出品など売れないことがわかっていたので、
10000円から12000円の価格帯に設定せざるを得なかったんでしょうね。
それに、正規分布でいう頂点にあたるところも、データの方は突出してますね。
超高価格帯も含めた分布
はい、最後です。もう全然ダメ...って感じですね。超高価格帯が存在するせいで、
左右非対称に磨きがかかってます。頂点のところも、随分違いが生じてしまっています。
これについても、超高価格帯が存在するせいです。超高価格帯をのぞいた場合に比べて、
正規分布は、平均値から遠いところでも少し大きな値を取らないといけない。
→分布的に一番大きい価格帯が、他の価格帯のところにリソースを持って行かれている
と見ることができます。(この図では見えませんが、正規分布は左右対称なので、このリソースは左右対称に持ってかれています。)
それでp-value=2.2e-16とかすごい数字が出てたんですね...
まとめ
はい、まとめはほぼタイトル通り
鉄獣戦線 徒花のフェリジットのメルカリ相場の価格分布は、やはり正規分布っぽくない
でした。まあ、正規分布にならない理由の方が多そうですよね...アホな話、これで
が言えるのでは???笑
一般論を作るのは難しいですが、否定するのは一つ判例を見つければ良いので笑
しかし個人的に気になるのは、
今回のサンプル数で、この結果がどれほど信用できるか
ですかねえ...。また勉強せないかん...(2021/09/06時点でのデータを参照してます)
|
|
||
|
|