四十三庵

蔀の雑記帳

あなたのTOEICスコアはなぜ伸び悩むのか?〜TOEICスコア算出法〜

本日TOEICを受けてきました。
「900点超してブログで英語勉強法をドヤ顔で書くんや!」
とか息巻いてたんですが、現実は厳しく、800点は超えてくれよ、と祈るばかりです。

さて。
日本の試験の中で、一番わかりづらい採点法が、TOEICのスコア算出法ではないでしょうか。
僕も大学入るまで*1TOEIC800点とか900点とか言われても正直よくわかりませんでした。
今でも正直大してわかってません。
900超えてるとネイティブレベルの英語力ですげえ、くらいのことはわかるんですが、
じゃあ具体的に何問間違えで900点になるのか、ときかれたら言葉を濁す他ありません。
今回の記事でTOEICを何度か受けてる人も、まだ受けたことのない人も、
TOEICスコアがどういう風に算出されているのか、僕と一緒に勉強しましょう!*2

  • 統計的処理

TOEICのスコアとはそもそもなんでしょうか?

TOEICテストは、合否ではなく10点から990点までのスコアで評価されます。
このスコアは、常に評価基準を一定に保つために統計処理が行われ、能力に変化がない限りスコアも一定に保たれている点が大きな特長です。
これによりTOEICテストで、あなたの現在の英語能力を正確に把握したり、目標とするスコアを設定したりすることが可能になるのです。
公式サイトより)

なるほどよくわからん。
僕なりにまとめると、

1.10〜990点。
2.基本的に5点刻み。
3.日本人の平均点は560〜580点と言われている。*3
4.素点ではなく統計的処理を加えてある

TOEICの解答は全部で200個です。
だから1問5点だと非常にわかりやすいんですが、この4番の「統計的処理」というやつが、
TOEICのスコアをことさらにわかりづらくしている原因になっています。
今回の記事はその「統計的処理」がどんなもんかという話になります。

  • テストの採点方法について(読み飛ばし推奨)

先に言っておきますが、この統計的処理というのは非常に優れた採点方法だと僕は思っています。
統計の知識があるんなら是非学校の教師も採用すべきだし、
入試・公的な試験は全て統計的処理に基づく点数で評価すべきだと思っています。

欠陥採点方式として悪名高いのが、簿記です。
簿記三級・二級は100点満点中70点以上が合格となります。
この70点というのが動かないんです。
当然問題の難易度にはばらつきがあります。
僕が簿記二級受かった時はえらく簡単な時でした。
  (参考)
  簿記の合格率について
  この記事でグラフつくってますけど、ギザギザですよ。近年稀に見るギザギザっぷりです。

簿記の合格方法は論外ですが、検定試験にはこの手の「合格点固定型」が多いですね。
それでも誰も怒らないのは、それだけ結果がどうでもいいというか、
そんなに人生において落第が致命傷にならない、のどかな試験ということでしょう。

入試の多くは合格定員を設定して、上から順にとっていく、という風にやっています。
もっとも大学によって配点やら定員数を守るかどうかやらは微妙に違いますが。
「人数固定型」と仮に呼びましょう。

よく高校の赤点を決めるときなんか(僕の高校もそうでした)に使われんのが、
「平均点-15点」とかいう風に、平均点を元に合格不合格ラインを決定する方法。
試験の難易度が上の二つの方法に比べたら多少は反映されるんですが、
それでも「-15点」の部分が人為的に設定されるので、これでまた新たな不平等の種ができます。
「平均点利用型」と仮に呼びましょう。

「合格点固定型」と「平均点利用型」はどっちも「数値設定の人為性」という問題を抱えていて、
「人数固定型」は使える試験が限られているという欠点があります。

統計的処理をやって成績評価すれば、一応この三つの評価方法の欠点は解消されます。
難点があるとすれば、採点する側に統計知識が必要なのと、出てきた点数が統計的知識のない人にはわかりづらいことでしょう。*4

  • TOEICの「統計的処理」とは

さて前置きが長くなりました。*5
いよいよTOEICの統計的処理が何をしているのかという話に移ります。
教科書的な話もできなくはないんですが、これまで何度か記事を書いてきた経験から言って、
そういう記事は悲しいほどスルーされてしまう現状がありますので、「読めばわかる」ような説明でがんばりたいと思います。*6

TOEICでやっている統計処理というのは、

トータルスコアが
・平均点を中心として
・左右均等になり
・「すごく高い(低い)スコア」になればなるほど少なくなってゆく

ような処理です。*7

素点と何が違うのか、と思うかもしれません。
実は平均点をとった場合、素点でも統計処理されててもあんま変わりません。
たとえば平均点が500点の回で、そいつは100問正解しました。
1問5点で評価するのが素点ですが、統計処理を加えても多分スコアは500点で変わりません。
変わるのは500点を離れた連中です。

たとえば700点をとった人がいたとしましょう。
素点であれば、これは当然140問正解したことを意味します。
しかし統計処理を加えてる場合、これはちょっとわかりません。
ここが統計処理の優れている所なんですけど、単なる平均点からの距離でなくて、
その平均点からの距離が、その試験のなかでどのぐらい珍しいかというのも、スコアに加わるんですね。
同じ平均点500点のテストでも、
受験者に「400点〜600点が多い」場合と「100点〜900点まで幅広い」場合がある訳です。
ただ単に「平均点マイナス何点」という「平均点利用型」では、ここが無視されてるんですね。

受験者の点数の散らばりが平均点付近に固まってんのと、広く散らばってんのの、「何が違うの?」と思うかもしれません。
おそらくこの記事を読んでる大多数の人はそういう感想でしょう。
次の二つのケースを考えてみましょう。

「平均点500点のテストで140問正解。1問5点計算で素点700点取りました」
1.受験者に(素点)400点〜600点とった人が多い回
2.受験者に(素点)100点〜900点と幅広く散らばっている回

さて、1の回と2の回、この素点700点は同列に評価すべきでしょうか?
よう考えてみてください。





答えは1の素点700点の方が高く評価すべき、となります。
だって、ほとんどの人が600点超えなかった回で、700点とったんですよ?
2のように700点以上をとっている人もそこそこいる回に比べたら、その価値は高いはずです。

実際、統計的処理を施すと、「1のケースの素点700>2のケースの素点700」となります。
これが全ての素点に対して行われると、

・試験の難易度
・受験者全体のレベル

という二つの影響をほぼ取り除いて、試験を受けたあなたの実力がかなり正確に反映されます。

ちなみに1の回と2の回をどうやって判定してるんだよ、と気になる方もいると思います。
これは標準偏差という指標がありまして、これを使ってます。
噛み砕いて言ってしまえば、「散らばり具合の平均」です。
標準偏差が100点だったら、あなたと他の受験者は100点ぐらい差があるんだと思ってください。
ただ平均点と違って、計算がちょっとだけ複雑で、厳密に「AさんとBさんの点差が平均100点」とは言えない所が、
少し悩ましい所なんですが、直感的にはそういう理解でいいと思います。
詳しくは統計学の教科書を開いてみてください。*8

1の回みたいに平均点周辺に皆集まっている場合→標準偏差
2の回みたいに平均点からばらけている場合→標準偏差
となります。

  • 具体的に

第164回(2011年7月)
標準偏差はちょっと微妙な説明になってしまいましたが、まあそんな感じ。
具体的に僕が730点をとった7月のTOEICのデータを見てましょう。
標準偏差は168.0点だったそうです。
結構大きいですね。
別にこの回だけ特別大きいという訳ではなくて、大体ここ最近は標準偏差170前後で推移しているみたいです。

●トータル

(青が左(単位;人)、赤が右(単位;%))
先ほど、統計処理とは

トータルスコアが
・平均点を中心として
・左右均等になり
・「すごく高い(低い)スコア」になればなるほど少なくなってゆく

となるような処理のことだと説明したんですが、グラフにしてみるとこういうことです。*9
この回の平均点が577.0点なんですが、495〜595点の所の人数が一番多くなってますね。
ちょっと平均点より分布がズレてるのは、綺麗な左右対称ではなくて、
高得点層に比べて、低得点層(あんまり低得点層って言わないけど)の人数が少ないからですね。
TOEICスコア100点下回った人は、多分満点と同じくらい珍しいんで、もっと自慢していいですよ。

リスニングとリーディングにわけた分布はこちら。
●リスニング

●リーディング

トータルに比べると随分歪んだ分布になってますが、この二つが合わさると、
トータルの割合綺麗な分布になるので、その辺りも加味されてるのかな?
細かいことはよくわかりませんが。。。

リーディングの方がリスニングよりも難しい、というのはこの分布を見てもはっきりしてますね。
僕のリーディングスキルが弱いせいでもなかった。
たまにリーディングの方が点数高いって人がいるんだけど、
多分あんまりトータルスコアが高くないからそうなるんじゃないかなあと思わざるをえない。
●表

リスニングセクション(Listening) リーディングセクション(Reading) トータル(Total)
平均スコア(Mean Score) 320.3 256.8 577.0
標準偏差(Standard Deviation) 86.3 90.8 168.0

TOEIC受験者数

  • なぜあなたのスコアは伸び悩むのか?*10

以上説明したとおり、TOEICスコアは統計処理がされています。
だから500点から700点へのスコアアップというのは、割とサクサク伸びるんですが、
700点から900点へのスコアアップは、かなりの努力を必要とします。

これは大学受験の偏差値と一緒です。
偏差値も
60から70まで伸ばす努力>>>>>>>>>>>50から60まで伸ばす努力
という仕組みになっています。

具体的に言うと、
「ほとんどの解答者が正解する問題は絶対に落とさない」
「ほとんどの解答者が落とす問題でも拾う」
ということが求められます。
まあ要は「間違えるな」ということなのです。

統計処理してようがしてまいが、よりたくさん正解した方が点数が高くなるのは不変なので、
結局スコアアップのためには地道に勉強しろということがわかってくれたと思います。*11

(関連)
TOEICに点数が取りやすい月があるって本当?
Allaboutらしい、わかりやすいけど要領を得ない解説。
TOEICのスコア計算の仕組みがややこしすぎるのでグラフを作ってみた
やってることは同じなんだけど、僕のグラフの方がわかりやすいと思います。えへへ

*1:というかTOEICを実際に受けて結果が返ってくるまで

*2:いつも通り「○○を説明する」のと僕の勉強を兼ねている

*3:ソース

*4:実は統計的処理がTOEICくらいでしか使われてないのは「わかりづらい」というのが一番のネックなんでないかと本気で思っている

*5:でも思いついた時に書いとかないと二度と思い出さなそうな気がして

*6:統計学勉強した人は簡単にしすぎと思うかもしれませんがまあ許して

*7:ホントは正規分布って言葉が使えるとええんやけど。標準化して正規分布にした上で995かなんかを掛けてそれっぽく算出してるんだと予想。具体的な計算式は公表してない模様ですね

*8:そんな難しい話ではないんだけど、素直な計算ではない。結局平均からの各値の差の総和を2乗することになるんです。なぜ2乗するかっつったら平均からの各値の差の総和ってゼロになるからなんですけど

*9:表の関係で995→5点という不自然なグラフになってますが、ご愛嬌ということで

*10:ぶっちゃけこの記事のタイトルは完全な釣りタイトルで、もう9割この記事はここまでの説明でおわりなんです

*11:なんて教育的結論!