翔泳社新刊紹介（AD）

統計学の主要な手法をさっと一望、ロジスティック回帰分析やギブスサンプリングを紹介

2020/07/15 07:00

ポスト

　機械学習やデータ分析には不可欠となる統計学。CodeZineを運営する翔泳社では、「どんな手法があったっけ」と必要な手法を知りたいときに役立つ『統計学大百科事典』を発売中です。本書では基本的な手法から発展的な手法までを一覧できますが、今回はその中から「ロジスティック回帰分析・プロビット回帰分析」「分散分析」「ギブスサンプリング」「共分散構造分析」を紹介します。

ポスト

本記事は『統計学大百科事典仕事で使う公式・定理・ルール113』から一部を抜粋したものです。掲載にあたり編集しています。

ロジスティック回帰分析・プロビット回帰分析

年収と持ち家の関係性を回帰分析する

　年収と持ち家の関係を調べるアンケートを取りました。年収をx、持ち家の人をy=1、持ち家でない人をy=0としてデータを取ったところ、上左図のような散布図になりました。xとyで単回帰分析をすると、回帰直線では負の値や1以上の値が出てきてうまくありません。そこで、直線の代わりに、xが大きくなるに従って1に近づき、xが小さくなるに従って0に近づくような関数を用いて回帰分析をしようというのが、ロジスティック回帰分析やプロビット回帰分析です。

　x→∞で1、x→-∞で0となるような関数として、f(x)やF(x)が選ばれたわけです。y=f(x)、y=F(x)のグラフは前ページの右図のようになります。

　前ページの左図実線のようなグラフを得ることができれば、yの値は年収xの人が持ち家である確率を表していると解釈できます。この例の他、毒物の摂取量と致死率、温度と発芽率などにも適用できます。

　得られたデータ(x_i，y_i)から、a、bを求めるには最尤法（05章03節）を用います。すなわち、プロビット分析であれば、尤度関数を

と設定します。線形回帰の場合と異なり、a、bの最尤値は(x_i，y_i)を用いて明示的に表すことはできません。そこで、コンピュータによる数値計算で求めます。

ロジスティック回帰と対数オッズは関連がある

　ロジスティック回帰の式で

と置くと、

となります。確率pに対して、p/(1-p)をオッズ（odds）、log[p/(1-p)]を対数オッズまたはpのロジット関数といいます。ロジスティック回帰分析とは、対数オッズをxの1次式で表すモデルを用いた回帰分析であるといえます。

　説明変数をk個にして、

をモデルにした場合も同様に、ロジスティック回帰分析、プロビット回帰分析といいます。

　なお、(x1，x2，……，xk，y)（yは0または1）型の予測は判別分析でもできます。しかし、この回帰分析のように予測値が0から1までの実数値で返ってくるわけではありません。

分散分析（概説）

変動（平方和）から分散比を作る

　分散分析はフィッシャーがロザムステッド農事試験場に勤めているとき、農作物に適した生育条件（肥料、日照、気温、土壌など）を研究するために開発した統計手法です。異なる条件のもとでの収穫量を比較し、効果に差があるか否かを検定するのです。

　A₁、A₂、A₃の3つのグループがあり、それぞれの平均をm₁、m₂、m₃とします。A₁、A₂、A₃から抽出した標本から、帰無仮説H₀：m₁＝m₂＝m₃を検定するのが分散分析の基本形です。2群の差の検定を繰り返すことでm₁、m₂、m₃に差があるかを検定してはいけない理由についてはIntroductionで述べたので繰り返しません。

　帰無仮説を検定するために、分散分析では検定統計量として分散比を作ります。標本全体での偏差平方和S_Tを分散分析では全変動（total variation）または全平方和（SST：sum of squares total）と呼びます。分散比を作るために、これをいくつかの変動の和に分けます。

　たとえば、03節の二元配置分散分析（繰り返しなし）では、

　　（全変動）=（A群間変動）+（B群間変動）+（誤差変動）

といった具合です。各変動には自由度が計算されています。変動を自由度で割って分散にしたあと、組み合わせて分散比を作ります。これが検定統計量になります。分散比をF分布で検定するのが分散分析に共通した手法です。F検定にかけるので分散比のことをF値とも呼びます。

　このあらすじを頭に入れて、実例から先に当たるのが良いでしょう。統計学の利用だけを目指している方は、次の分散分析表の読み方さえできれば十分です。

　分散分析は各グループ内の分散が互いに等しいことを仮定しています。この前提条件が成り立たない場合は分散分析ができないので注意しましょう。

　二元配置分散分析（繰り返しあり）では、単にグループの平均が等しいかどうかだけでなく、要因どうしの交互作用（相乗効果や相殺効果）があるか否かまで検定できるところが興味深いところです。

自動車のアクセサリーを売り込むのはどこが良いか？

　カーアクセサリーの会社を経営するH氏は、世界の6地域（アジア、アフリカ、オセアニア、ヨーロッパ、南アメリカ、北アメリカ）、83か国に関する国民1,000人当たりの自動車保有台数のデータを用いて、自動車の平均保有台数に地域差があるのかを分散分析することにしました。統計ソフトの結果（分散分析表）は次のようになりました。

　この検定は自由度(5，77)のF分布で検定します。分散比(F value)が27.568で、p値が6.89*10^-16ですから、有意水準1％でも帰無仮説は棄却、すなわち自動車の平均保有台数には地域差があることになります。分散分析表を読むポイントは、Pr(＞F)の値です。これが有意水準より小さければ帰無仮説を棄却、大きければ帰無仮説を受容します。分散分析は要約するとこれだけです。

共分散構造分析

パス図を設計する

　共分散構造分析でははじめにパス図を設定します。いわば分析の設計図です。

　上のパス図を式にすると、

となります。このように、パス図の→は係数を、↔は共分散、相関係数を表しています。

　観測できる変数を観測変数（x_i）、因子分析で共通因子と呼んでいたものを潜在変数（f_i）、独自因子と呼んでいたものを誤差変数（e_i）といいます。

　観測変数xiを潜在変数f_iを用いて表した式（x₁からx₄まで）を測定方程式、観測変数どうしの関係を表した式(x₅）を構造方程式といいます。測定方程式は因子分析、構造方程式は回帰分析をしていると見なせますから、共分散構造分析は「回帰分析と因子分析を合わせた分析方法」であると標語的に表現されます。

　f₂からx₁、x₂にパスがなくても良いし、x₂とx₃に1次の関係があっても良いし、潜在変数どうし、誤差変数どうしに相関関係があっても良い、というように分析者が自由度を持ってモデルを構築できるところが共分散構造分析の利点です。

　観測データx=(x₁，x₂，x₃，x₄，x₅）は、各成分の期待値が0になるように中心化（x_iに対してx_i-xで置き換える）されているものとします。xから、