母集団を設計する
「偏差値」の計算はデータの中心が最も高く、左右対称に広がる「正規分布」を前提として考えられる事が多いです。そのため、試験の得点分布もそうした綺麗な山型のグラフになると思われがちです。しかし、実務における試験設計では、目的を達成するためにあえて分布を歪ませる(バイアスをかける)手法がとられます。ここでは例として「基礎レベルの公的資格試験」の設計プロセスをシミュレーションしてみましょう。
統計的要件定義
基礎資格の目的は「一定以上の知識を持つ人を広く認定すること」です。そのために、設計者は母集団のデータを以下の状態にコントロールすることを目指します。
- 平均値の制御:標準的な実力を持つ層が確実に合格すること
- 中央値の制御:受験者の半分以上は合格しているという安心感を担保すること
- 最頻値の制御:最も人数の多い層が合格圏内にいること
これらは似ているようで、統計学的には全く異なるアプローチです。まずは、この基本形においてなぜ3つの値が「似てしまうのか」、あるいは「どうズレるのか」を詳しく見ていきましょう。
平均値(mean)の設計:難易度と「バッファ」の定義
まず「平均的な実力で合格とする」という要件を、点数の配置で考えてみましょう。図1のように、平均値を合格点よりも意図的に高く設定します。
もし、合格点が60点の試験で平均点もジャスト60点だった場合、統計学的には「受験者の約半分が不合格になる」という、基礎資格としては非常にシビアな試験になってしまいます。これでは、平均的な実力で合格する試験とは言えません。そのため、平均値を「合格点+10~15点」程度(例:70点~75点)になるよう難易度を調整します。
この設計により、平均付近に位置する最も層が厚い受験者群に対し、数問のケアレスミスを許容する「バッファ」を提供できます。教育現場の定期テストで合格点が概ね70点付近に設定されるのも、こうした統計的な「フォールトトレランス(障害許容性)」の設計思想に基づいていると言えるでしょう。
中央値(median)の設計:「半分より上」の心理的報酬
次に中央値について考えてみましょう。中央値を考慮することで、集団を実力順に並べた際の「真ん中の人」(50パーセンタイル)の合否をコントロールすることができます。
「真ん中の人が合格する」ということは、すなわち「受験者の半分以上が合格する」ということです。資格の普及や信頼性を高めることを目的とした試験では、この「受験者の過半数が合格している状態」をKPI(重要業績評価指標)に置くケースが少なくありません。そこで「中央値 > 合格点」となるよう設計すれば、「標準的な学習を積み、集団の半分より上に位置すれば合格できる」という受講者側への心理的な安心感に繋がります。
ここで、平均値と中央値の関係について、一部の突出した優秀層がいるケースを想像してみましょう。この場合、優秀層がスコアを極端に稼ぐことで「平均値」は跳ね上がりますが、「中央値」は低いままという現象が起きます。これでは、図2のように「一部の優秀層は合格し、大多数(マジョリティ)は苦戦している」という、難易度が高い(あるいは不親切な)試験になってしまいます。
つまり、試験全体の方向性をマジョリティが主導するためには「中央値≧平均値」という関係性が望ましいのです。もし平均値が高いにもかかわらず中央値が低い場合、それは一部の層が数字を釣り上げているだけで、実態としては合格させたい多くの人が不合格になってしまう「いびつな試験」になっている可能性があります。
最頻値の設計:ボリュームゾーンという名の「現場」
実は、平均値と中央値だけでは、集団の「リアルな姿」を捉えきれないことがあります。それを決定づけるのが最頻値(Mode)です。
試験設計においては、点数ごとの人数が描く「シルエット」(分布)そのものをデザインします。一般的に偏差値が正規分布を前提とするのは、山の頂点(最頻値)を平均値付近に据えるのが、集団管理において最も安定し、予測可能性が高まるからです。
しかし、目的に応じてこの山を右(易化)や左(難化)にわざとずらすのが「評価のデザイン」です。その結果として生じる「理想的な山とのズレ」が、平均・中央・最頻の3本のラインのかい離として現れます。このズレを制御することが試験設計のポイントです。
