統計の検定

この記事は2017年08月07日に公開されました。 情報が古い可能性があります。

こんにちは、殿内(@tonoccho)です

R で T検定するのすごい簡単なんですね。t.test(data, data, ...) でできるのだから。で、T検定って何?っていうか検定って何?というところから本日のエントリーは始まります。
だって授業で統計の知識必要っていうんだもん・・・

統計における検定とは

と思って、統計 検定でググったら統計検定という資格ばかり表示されますね。。。全くつかえない・・・というのが主観的な判断ですが、これが「たまたまそういう結果ばかり表示されているのか」それとも「何かしらの原因があって表示されている(と言っていい確率何%)」というのがつまり検定の話みたいです。
実際検索結果の3番目が自分の望む情報みたいなので、たまたまかもしれません。
検定に話を戻すと、「このデータは完全に揃ったものじゃないけど、全体を表しているか?」ということを言うためのテクニックで、いくつかの種類があるようです。t検定は、データの平均が全体の平均とどれくらい乖離しているかを求めて、このデータは全体を表していると言って問題ないよ!(問題ないとは言っていない)ということみたいです。

検定の問題点

検定それ自体は単なる計算なので、なんらかの数値が出ますが、この数値が「真理である」とは限らないと言う点です。なので、5%で検定とか、1%で検定とかそう言うことをします。なんか統計って5%好きね・・・
5%と言いつつ「5%なのでたまたま起こった」なのか「5%で起こりうることが起きた」のかまでは断言できない、と言うことですね。なので、この5%が「たまたまと有意差」のボーダーとして検定しました、と言うことみたいです。
また、データの量も問題で、あまり少ないと意味がありませんね。例えば、クラスからそれぞれ1人ずつ選んでデータをとった場合と、10人ずつ選んでデータをとった場合は後者の方がなんか全体をうまく表しそうです。
さらに言うと、データの偏りによって検定の結果がずれることもあると言う点です。例えば、政党支持率のデータを取るときに、特定政党の支持者ばかり集めても変な結果になるでしょう(この辺は昔から言われてることなのですけどね)。
そう言うわけで、検定は「こう言うデータの取り方だと全体を表す確率xx%と言えます」くらいに留めた方がいいでしょう。

そう考えると統計って

本当に数学とは別物だな、と思います。例えば先の「特定政党の支持者からばかり集めた支持政党データ」の全体は「特定政党」であって「すべての政党」ではありません。でも、このデータをとった人が「すべての政党の支持率を出す」と言うようにしたら、すべての政党の支持率である、ということになってしまうので危険ですね。
例えばマスコミがやっている国民調査でしたっけ、ああ言うのも、「一体どう言う標本の作り方をしたのか」とか「そもそもそのマスコミの性格はどうか」であるとか、はたまた設問がきちんと公平なものになっているか(例えばこの問いでAと答えた時だけ何か追加で答えることを要求していないか、とか)、と言うのが大事だと言うことですね。
例えば、待機児童0の自治体があるそうですが、計算方法も詳しく書かれているので見てみれあこの数字一体なんだろう、というものではありますね。待機児童下手したらマイナスにならないか?

統計の自分の理解

まず、統計は数学とは違う(数式や記号は数学と共通だけど使い方が違う)。
次に、統計データに携わる各所のモラリティが結構求められる。そうでないと恣意的なデータ収集、解析、検定が行われる
最後にデータを受け取る人のリテラシーも重要だけど、みんながみんな統計の知識を持ってるわけじゃないので、情報を出す側がきちんとやらないとだなぁ。
 
 
 
 
 
 
 
 
 
 

ニュージーランドの最新記事

移住の最新記事

勉強の最新記事