SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

データサイエンス基礎を高校数学から復習

平均・中央・最頻値を理解し、設計者の視点で「偏差値」を実装する

データサイエンス基礎を高校数学から復習しよう 第7回

山の位置をずらして考察する:設計の答え合わせ

 では、意図的に「山の頂点」(最頻値)を左右にずらした時、「偏差値」はどう動くのかを確認しましょう。

山が左に寄っている場合(難易度が高い試験)

 最頻値を「30点」に設定し、難易度を高めたシミュレーション結果が図4です。

図4:最頻値(山の頂点が30点)になるようにしたグラフ
図4:最頻値(山の頂点が30点)になるようにしたグラフ

 実際のランダムなサンプルデータを使った場合に、以下の結果が出ました。

  • 理論上の最頻値:30点(黄色線)
  • 中央値:33点(青線)
  • 平均値:34点(緑線)

 この場合、「最頻値<中央値<平均値」の関係になります。山が左に寄っているため、平均値が右側に(高い点数の方へ)引きずられていることがわかります。

 この試験での偏差値と、その点数以下に含まれる人数の割合を算出すると以下の通りになりました。

  • 偏差値40:19.7点(全体の16.5%が含まれる)
  • 偏差値45:26.8点(全体の33.1%が含まれる)
  • 偏差値50:34.0点(全体の51.6%が含まれる)
  • 偏差値55:41.1点(全体の70.8%が含まれる)
  • 偏差値60:48.3点(全体の83.5%が含まれる)

山が右に寄っている場合(易しい試験)

 逆に、最頻値を「70点」に設定し、合格しやすい設計とした結果が図5です。

  • 理論上の最頻値:70点(黄色線)
  • 中央値:67点(青線)
  • 平均値:66点(緑線)
図5:最頻値(山の頂点が70点)になるようにしたグラフ
図5:最頻値(山の頂点が70点)になるようにしたグラフ

 ここでは「平均値<中央値<最頻値」という逆の関係が成立します。そして、この試験での偏差値とその点数以下に含まれる人数の割合を算出すると以下の通りになりました。

  • 偏差値40:51.7点(全体の16.4%が含まれる)
  • 偏差値45:58.8点(全体の29.2%が含まれる)
  • 偏差値50:66.0点(全体の48.3%が含まれる)
  • 偏差値55:73.1点(全体の66.8%が含まれる)
  • 偏差値60:80.3点(全体の83.6%が含まれる)

「物差し」としての偏差値の正体

 このように、山の位置(最頻値)をどこに設計しようとも、偏差値が示す「集団内での相対的な位置(%)」は大きく揺らぎません。全体の母集団の特徴は「平均値・中央値・最頻値」の並び順で把握でき、その前提の上で「偏差値」を使うことで、特定の個人が全体の中でどこに位置しているかを正確に特定できるのです。

 これが、冒頭で筆者が偏差値について、「これら3つの要素を考慮し、主催者の意図に合わせて再構築した、一次評価のインターフェース」と表現した理由です。

 設計者が山をどんなに歪ませても、偏差値というインターフェースを通せば、受験者は自分の「立ち位置」という純粋な情報を得ることができます。これこそが、設計の自由度(主催側の意図)と評価の公平性(受験者の視点)を両立できる統計の知恵とも言えます。

集中度(Concentration)が変える「山の景色」

 ベータ分布でサンプルを作成する際に用いた「集中度」(Concentration)というパラメータがありました。本稿ではこれを詳しく説明せず、漠然としたデータの広がりを制御するものという捉え方で説明しましたが、グラフで見ると「平均値・中央値・最頻値」の3本の距離として現れていることがわかります。

 図6は最頻値を「20点」に固定したまま、集中度を「5」と「30」に変えて比較した場合です。

図6:同じ最頻値で集中度を変えた場合
図6:同じ最頻値で集中度を変えた場合

 集中度を上げると、バラバラだった3本の線が互いに近づいていくのがわかるはずです。

  • 集中度が低い(山が低い):3本の線の間隔が広く、集団の性質が「ぼやけて」いる。
  • 集中度が高い(山が鋭い):3本の線が密集し、集団の性質が「明確に定義」されている。

 設計者の視点で見れば、集中度を上げることは「合格圏内にどれだけの人を高密度で詰め込むか」をコントロールすることに他なりません。ただし、山が完全に左右対称(最頻値50)になると、これら3つの値は完全に一致してしまいます。データが「綺麗すぎる」と、逆にその背後にある集中度が見えにくくなるというのも、統計の面白い落とし穴です。

最後に

 今回は、データの統計を深く理解するために、代表値と「偏差値」の関係性を、設計者の視点からひも解いてきました。私たちは普段、偏差値という結果ばかりを重要視しがちで、その裏側にある平均・中央・最頻値の並び順(集団の歪み)にまで目を向けることはありません。

 しかし、今回見てきたように、母集団の形を理解して初めて、偏差値というインターフェースが持つ真の価値を使いこなすことができるのです。

 平均・中央・最頻値というありふれた統計値を、単なる「算出される結果」ではなく、自らの意図を込める「設計パラメータ」として捉え直したとき、これまでとは全く違う捉え方ができるのではないでしょうか。ただし、今回扱ったのは「傾向が1つ」(山が1つ)というシンプルなデータ群に限定されていました。現実の世界では、合格者層と不合格者層がはっきりと分かれる「二峰性」(2つの山)の分布など、より複雑になります。

 次回は、こうした「集団の中に複数の傾向が混在する場合」の統計的アプローチについて解説します。

この記事は参考になりましたか?

データサイエンス基礎を高校数学から復習連載記事一覧

もっと読む

この記事の著者

WINGSプロジェクト 小林 昌弘(コバヤシ マサヒロ)

WINGSプロジェクトについて>有限会社 WINGSプロジェクトが運営する、テクニカル執筆コミュニティ(代表 山田祥寛...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

山田 祥寛(ヤマダ ヨシヒロ)

静岡県榛原町生まれ。一橋大学経済学部卒業後、NECにてシステム企画業務に携わるが、2003年4月に念願かなってフリーライターに転身。Microsoft MVP for Visual Studio and Development Technologies。執筆コミュニティ「WINGSプロジェクト」代表。主な著書に「独習シリーズ(Java・C#・Python・PHP・Ruby・JSP&サーブレットなど)」「速習シリーズ(ASP.NET Core・Vue.js・React・TypeScript・ECMAScript、Laravelなど)」「改訂3版JavaScript本格入門」「これからはじめるLaravel実践入門」「はじめてのAndroidアプリ開発 Kotlin編 」他、著書多数

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

CodeZine(コードジン)
https://codezine.jp/article/detail/24291 2026/05/28 09:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング