四十三庵

蔀の雑記帳

大学で統計を学んで思うこと

  • 導入

僕の場合、大学の専攻と就職先で必要な知識は全然違った。
なんか書き残しとかないと忘れてしまいそうなくらい。
しかし、全然違うことをやっているおかげで、
自分が大学時代に学んでいたことが客観的に見れるようになった気がする。

大学では計量経済学を学んだ。
経済学というのは、複雑な経済を単純な経済モデルを使って説明しようとする学問だと思っている。
経済モデルというのは、数式を使って表現する。
たとえばマクロ経済学の基本となっているモデルで、

Y=C+I+G+EX-IM

みたいな感じで。
ミクロとマクロというのは理論でしかない。
計量経済学は理論をもとに、現実のデータを使って、それが正しいかどうかを検証する。
そのため、計量経済学のベースとなっているのは統計学と確率論だ。


大学で、一応自分の中では満足の行く程度には勉強できた。
統計を学んだおかげで、モノの見方が変わったところもある。
もともと僕は国語の成績だけがよくて他の教科はさっぱりな文系男子だったけれども、
数学的なモノの見方というのは好きで、観念的にモノを捉えるのも大事だが、
統計や分析を通じてモノを正確に捉えることも大事で、実用的だと考えていた。
五年間の大学生活*1を通じて統計を勉強したおかげで、自分が欲しかった分析ツールが手に入った。

勉強してみると、統計の限界も見えてきた。
統計学を勉強する前は、データ分析といえば、何もかもがわかる、魔法の杖のようなイメージがあった。
複雑な計算やグラフで、自分の欲しい真実がなんでも導けるツールだと夢想していた。
しかしながら、当たり前のことだが、現実世界に魔法の杖はない。
統計も単なる科学の一分野でしかなく、強力なツールであることも事実だが、限界はある。

今回の記事では、統計のプラスポイント、マイナスポイントを箇条書きで思いつくままに書いていきたい。

  • 統計を学んだおかげでわかった4つのこと

1.イメージと実態は違う
2.統計は案外感覚と整合的
3.すべて調べる必要はない
4.ゴミみたいな統計データが見抜ける

1.イメージと実態は違う
データで現状分析をし始めると、世の中の議論がいかにイメージ先行で行われているかがわかる。
イメージ先行の議論に対しては、統計データによって、
「そもそもあなたの主張は前提とする現状分析が間違ってますよ」
とエビデンスを突きつけるのが有効だ。

たとえば、
「最近凶悪な少年犯罪が増えている。子供の心の闇が心配だ。もっと道徳の時間を増やすべきだ」
という風なことを言ってる奴がいたとしよう。
ここで、「道徳の時間を増やすべきか否か」というところを中心に議論するとめんどくさい。
「そもそも少年犯罪って増えてなくね?」というところに着目しよう。
統計をテキトーに引っ張ってくると。

おや全然増えてないですね。
道徳の時間もっと削減していいのでは?

(参考)
反社会学講座「第2回 キレやすいのは誰だ」

少年犯罪が増えていると感じるのは、マスコミで一つの少年犯罪が何日も報道されるからだ。
酒鬼薔薇聖斗事件だの、凶悪少年犯罪がクローズアップされると、
少年全体が凶悪化しているような感じがする。
しかしながら、統計データを調べると、それが単なるイメージでしかないことがわかる。
なぜこんなことが起きるのかというと、「印象」に人間は強く支配されるからだ。
統計を使うことで、その印象が正しいのか、間違っているかを知ることができる。

2.統計は案外感覚と整合的
1と矛盾するかもしれないが、我々が日常的に抱いている感覚というのは案外正しい。
もちろん間違っていることもあるので、感覚を絶対に正しいと思ってはいけない。
しかし裏付けをとっていくと、半分以上は感覚と統計が合致する。

たとえば東京に居ると、子供の姿をあまり見ない。
山手線や地下鉄の車内はおっさんや年寄りばっかりだ。
(もちろん地域にもよる)
これは相当少子化進んでるんじゃないか? と思って、
統計データを漁ってみると、案の定東京の出生率は四十七都道府県中最下位だ。

1で出した少年犯罪のデータは、感覚と統計が真逆になる例だったが、そういう例の方が少ない。
僕も勉強してみて意外だった。
勉強する前は、「統計を知ると世界の真実がわかる!」とか思っていたが、
「世界の真実」というのはだいたい常識的なものであるようだ。

3.すべて調べる必要はない
統計学をちゃんと学ぶと、無作為抽出(ランダムサンプリング)というのがいかに重要かがわかる。
適切にサンプリングさえできていれば、選挙の結果も投票者全員を調べる必要はないし、
視聴率も日本人全員を調査する必要はない。

(参考)
四十三庵「猿でもわかる視聴率の出し方」

投票速報が、開票率1%行かない時点で当選確実とか出てしまうのは、
事前にマスコミが出口調査などである程度の調査結果をあつめて、当日開票結果を出していく中で、
「あ、やっぱこいつ当選するわ」というアタリをつけているからだ。
1%しか開票していないのに当選者が確定した、というわけではない。
「90%以上くらいの確率で、コイツだろう」と言えるだけでしかない。
だから当選確実は、外れる場合も稀にある。

4.ゴミみたいな統計データが見抜ける
ランダムサンプリングは重要だ。
たとえば選挙のアンケートだって、共産党を熱烈に応援している記者が、
「友達10人に聞きました!」というアンケート結果をつくって、
「なんと80%の住民が共産党を指示しています!」という風な結果を持ってきたら、
明らかに間違っていることはわかるだろう。

ただテレビや雑誌読んでると、そういう統計データはいっぱい使われている。
数字やグラフを出すとなんとなく信憑性が増すので、そういう手法を使うのだが、
よく見るとテキトーに作ってるデータの場合が多い。
テレビで「100人に聞きました!」なんていうコーナーがあるけれども、
街歩いてる100人に聞いたアンケート調査はあまりいいデータではない。

テレビのワイドショーなんかは、世論の誘導のために作られているところがあって、
世論というのはある程度のコンセンサスがあるからまだいいけれども、
10代の女の子向けの雑誌で、
「初体験の年齢は???」(調査:CanCamの読者100人)
みたいなデータが出るのは、結構悪質で有害だと思う。

  • 統計の3つの限界

前述の通り、統計には限界もある。

1.データがないものはどうしようもない
2.相関関係と因果関係は違う
3.統計だけでは意思決定ができない

1.データがないものはどうしようもない
計量経済学をやってて一番悲しかったのは、
「◯◯を知りたいんで、☓☓みたいなデータ探してるんですけど、いいのないっすかね?」
と教授に言うと、
「あ、それはこれとこれがあるけど、どっちもサンプル数少なすぎて参考にならないね……」
「そっすか……」
ということが起こったときだ。

知りたいけどデータがない、というのは結構ある。
不十分なデータしかない、という場合もある。
官公庁がやるのを待つしかない。
僕がずっと欲しかった統計に、「親の年収と子供の学力」というのがあった。
絶対に関係していると肌感覚ではわかっていたが、統計的な裏付けはなかった。
やはり教育界のタブーなのか、と思っていたが、先日文科省がやっと調査をしてくれた。

親の年収多いほど高い学力 文科省、初の全国調査

昨年4月に全国の小6と中3を対象に実施した学力調査について、抽出した公立学校778校で保護者3万9981人へのアンケート

全部公立校なので、サンプルはちょっと偏っているとは思うが、綺麗に関係が出ている。
朝日新聞の謎の方針で画像URLがコピペできないので、興味があればURL先に行って欲しい)

ただ、子供を持つ親約4万人とその子供のテストの点数のデータなんて、
学者でもない個人が興味持ったとしても調査できる規模ではない。

2.相関関係と因果関係は違う
統計を中途半端に勉強するとやってしまうのが、相関関係と因果関係の混同だ。

その好例が、「赤ワインがカラダにいい」という主張だ。
赤ワインを飲んでる人間は長生きする、という統計データがどっかの国でとれたらしい。
「赤ワインに含まれるポリフェノールがDNAのテロメアを伸ばすから長生きする」
とかいう謎の説明をどこかで聞いたことがある人もいるだろう。
僕も最近まで割と信じてたので、一日ボトル一本ペースで飲んでたんだけども、
実際赤ワインに寿命を伸ばす効果があるかというと、根拠はないらしい。

よく考えてみたら、赤ワインはアルコール度数15%前後の酒で、ビールやサワー類の5%と比べたら高い。
そんな酒がカラダにいいわけがない。
これが相関関係と因果関係の混同である。

なにが起きたのだろうか?

「赤ワインを飲む人」→「寿命が長い人」

この相関関係があったことは事実だ。
赤ワインを飲む人間に、寿命が長い人間が多かった。
けれども、赤ワインを飲んだから寿命が長かったのだろうか?
相関関係があることは、必ずしも因果関係があることを意味しない。

実は、因果関係としては次のようなものが正しいのではないか。

「赤ワインを飲む人」→「所得・社会的地位が高い人」→「寿命が長い人」

赤ワインを嗜む人間には、金持ちで偉い人間が多いのではないだろうか。
金持ちで偉い人間は、病気になっても治療が受けられるし、栄養状態もいい。

このような因果関係がないのに、相関関係が出てしまうものを、「見せかけの相関」と言う。
注意が必要である。

3.統計だけでは意思決定ができない
統計データの大切さを否定する人間はあまりいない。
数字にあまり強くない(と自分で思っている)人も、統計は大事だ、と言うだろう。
しかし、統計だけで他人を説得できるわけではない。
特に統計の説得力というのは、使っている手法が複雑になればなるほど落ちると僕は思っている。

たとえば
「このバッターの打率が4割あって、次のバッターが1割しかないから、こいつ敬遠しようぜ」
という程度なら、統計は使いやすい。
しかし、
「◯◯という研究では、
サンプルに不均一分散が観測されたためにホワイトの分散推定を行い、OLSを行った。
Aという変数の係数はプラスで、かつ有意であった。この結果から◯◯すべきだ」
みたいなことを言って相手を説得しようとしても、
相手が仮に十分な統計的知識があったとしても、すぐに決断するわけにはいかないだろう。

意思決定に統計データを使う場合、その使い方は考えなければならない。
他人を説得する場合もそうだし、自分で考える場合もそうだ。
ただデータがあれば判断ができるか、というとそうではない。

  • まとめ

以上、大学で統計を学んで思ったことをまとめた。
個人的には、統計を学んでよかったことよりも、限界の方が気になってきた。
ビッグデータというのがバズワードになっているが、僕が感じたのと同じような限界があるのではないか。
(了)

*1:察して