つてとのブログ

【鉄獣戦線 徒花のフェリジット】メルカリ相場の価格分布はやはり正規分布っぽくない話(確定編)【遊戯王】

 

イントロ.調査内容

こんにちは、たちつてとです。

前回、↓記事でQ-Qプロットというもので、鉄獣戦線 徒花のフェリジット

(以下、フェリさん)のメルカリ相場の金額分布が正規分布に従うか調査し、

まあ微妙な感じで終わりました。

 

tachitutetonosuke.hatenablog.com

今回は、Kolmogorov-Smirnov検定、Shapiro-Wilk検定っていう

よくわからない検定を主にRっていうソフトウェアがやってくれました。

この検定の内部処理は知りませんが、1秒くらいでできたので結果をおしらせします

(Rってすげえ...)。

 

以下では、ランク9,10の価格帯の出品金額帯を超高価格帯と呼びます。

超高価格帯ってなんやねんな方は、やはり↑記事をどうぞ。

まあ要は、典型的な出品の価格帯(8000円から12000円くらいまで)から

かなり外れた金額の出品です。今回は、18000円以上の価格帯。

結果

f:id:tachitutetoNosuke:20210912154851p:plain

p-valueってところが大事なところ。

↑がKolmogorov-Smirnov検定で↓がShapiro-Wilk検定です。2.2e-16というのは、

0.00000000000000022と同じです(0が16個並んでるはず...)。

つまり、ほぼゼロやん!、です。

 

で、そのp-valueが0やったとして何が嬉しいの?ということなんですが。

検定

統計学でありがち(必須?)な考え方:「検定」というのは、

仮説を立てその仮説は間違っている/なんとも言えない、ことを調べる方法なんです。

もっというと、立てた仮説は何パーセントくらいであり得る、を調べます。

 

つまり、この確率が小さいと、この仮説ありえんやん!となるし確率が大きいと、

この仮説あり得るかもしれんな...となるわけです。検定とは、ざっくりこんな感じです。

 

お察しの通り、↑でいう確率が、p値=p-valueです。いや、0やないかい。という。

 

ちなみに統計学では、この仮説を「帰無仮説」と言います。

普通、否定したい仮説を持ってくるので、無に帰したい仮説というわけです。

 

今回は、「フェリさんのメルカリ相場金額は、正規分布に従う」です。

検定の結果、↑の通りp-valueがほぼ0ですので、仮説を無に帰することができます。

 

フェリさんのメルカリ相場金額は、正規分布に従わない

 

とは言え、確率なのでないことはない(現実的な値とは言っていない)。という感じですかね...

 

ちなみに、IBMのサイトにQ&Aがありました。

 

Q.[正規性の検定]テーブルに表示される、「Kolmogorov-Smirnov」と「Shapiro-Wilk」の違いはなんですか。

 

A.「Shapiro-Wilk」は50件程度のデータに特化した手法になりますので、少ないケース数に対して正規性の検定を行う場合は、こちらをご提示してください。

だそうな。

 

今回の結果は、超高価格帯のも含めて計算してもらいましたが、

超高価格帯のものを含めずに検定をしても、p-valueは現実的な値にはなりませんでした。

f:id:tachitutetoNosuke:20210912163117p:plain

Kolmogorov-Smirnov検定の方が劇的に変わりました。しかしそれでも、現実的な値とは...って

感じですね。統計学では、しばしばp-value=0.05、つまり5%をしきい値にするみたいですが

それに比べるとやはり小さすぎますよね。

 

フェリさん金額の分布

最後に、分布を見ていただこうかと思います。

これまで見てきた度数分布を見ているような認識でOKです。

 

超高価格帯をのぞいた分布

さて、まず超高価格帯をのぞいて作った分布から見ていただきましょう。

下図の縦軸がやたら小さいのは、「規格化=度数をサンプル数で割る」

という処理をしてあるからで、あまり気にしないでください。

これまで通り、この金額が最も多い出品なんだな、少ない出品なんだな

という見方は変わりません。

 

平均値と分散(標準偏差)が計算できる時点で、正規分布自体はプロットできます。この超高価格帯をのぞいたデータ集団の平均値と分散からできる正規分布と、取得したデータから書ける分布の同時プロットが下図になります。

f:id:tachitutetoNosuke:20210912164120p:plain

そこはかとなくあっているようには見えますが、あくまでそこはかとなくです。

↑の図にコメントした通り、安い金額帯は出品が多く、高い金額帯は少ない。

 

正規分布は左右対称だが、データの分布は左右非対称になっている

 

ことがわかります。多分、出品者たちは13000円の出品など売れないことがわかっていたので、

10000円から12000円の価格帯に設定せざるを得なかったんでしょうね。

それに、正規分布でいう頂点にあたるところも、データの方は突出してますね。

 

超高価格帯も含めた分布

はい、最後です。もう全然ダメ...って感じですね。超高価格帯が存在するせいで、

左右非対称に磨きがかかってます。頂点のところも、随分違いが生じてしまっています。

f:id:tachitutetoNosuke:20210912170643p:plain

これについても、超高価格帯が存在するせいです。超高価格帯をのぞいた場合に比べて、

正規分布は、平均値から遠いところでも少し大きな値を取らないといけない。

 

→分布的に一番大きい価格帯が、他の価格帯のところにリソースを持って行かれている

 

と見ることができます。(この図では見えませんが、正規分布は左右対称なので、このリソースは左右対称に持ってかれています。)

それでp-value=2.2e-16とかすごい数字が出てたんですね...

 

まとめ

はい、まとめはほぼタイトル通り

 

鉄獣戦線 徒花のフェリジットのメルカリ相場の価格分布は、やはり正規分布っぽくない

 

でした。まあ、正規分布にならない理由の方が多そうですよね...アホな話、これで

 

遊戯王カードのメルカリ出品金額は、一般に正規分布ではない

 

が言えるのでは???笑

一般論を作るのは難しいですが、否定するのは一つ判例を見つければ良いので笑

しかし個人的に気になるのは、

 

今回のサンプル数で、この結果がどれほど信用できるか

 

ですかねえ...。また勉強せないかん...(2021/09/06時点でのデータを参照してます)