一般化線形モデル (いっぱんかせんけいモデル、英: Generalized linear model、GLM)は、残差を任意の分布とした線形モデル。似たものとして一般線形モデルがあるが、これは残差が多変量正規分布に従うモデル。一般化線形モデルには線形回帰、ポアソン回帰、ロジスティック回帰などが含まれる。1972年にネルダーとウェダーバーンによって提唱された。

概要

確率変数 Y {\displaystyle Y} が指数型分布族である、つまり確率密度関数 f ( y ) {\displaystyle f(y)} は正準 (canonical) パラメーター θ {\displaystyle \theta } , 分散 (dispersion) パラメーター ϕ {\displaystyle \phi } とスカラー関数 a ( θ ) {\displaystyle a(\theta )} , c ( y , θ ) {\displaystyle c(y,\,\theta )} を用いて指数型

で表すことができるものとする。

一般化線形モデルでは、指数型分布族の正準パラメーター θ {\displaystyle \theta } について滑らかであるリンク関数 (link function) と呼ばれる関数 g ( θ ) {\displaystyle g(\theta )} が、別の確率変数 X {\displaystyle \mathbf {X} } の実現値 x {\displaystyle \mathbf {x} } を用いて、 g ( θ ) = x T β {\displaystyle g(\theta )=\mathbf {x} ^{T}\,{\boldsymbol {\beta }}} と表せるものとする。

一般化線型モデルは下記の3つの要素から構成される。

1. 指数型分布族の確率分布
2. 線形予測子 (linear predictor) η = x T β {\displaystyle \eta =\mathbf {x} ^{T}{\boldsymbol {\beta }}}
3. リンク関数 (link function) g {\displaystyle g} such that g ( θ ) = η {\displaystyle g(\theta )=\eta }

指数分布族の性質

下記のように尤度関数を定める。

このとき、下記等式が成立する。

この等式を用いて計算すると、確率変数 Y {\displaystyle Y} の平均は a ( θ ) {\displaystyle a'(\theta )} 、分散は ϕ a ( θ ) {\displaystyle \phi \,a''(\theta )} であることが分かる。

下記の他、多くの確率分布が指数分布族に分類される。

  • 正規分布
  • ベルヌーイ分布
  • ポアソン分布
  • 二項分布
  • ガウス分布

実例

正規分布に従うモデル

既知の値 σ 2 {\displaystyle \sigma ^{2}} を用いて a ( θ ) = θ 2 / 2 {\displaystyle a(\theta )=\theta ^{2}/2} , ϕ = σ 2 {\displaystyle \phi =\sigma ^{2}} , c ( y , ϕ ) = ( y 2 / σ 2 log 2 π σ 2 ) / 2 {\displaystyle c(y,\,\phi )=-\left(y^{2}/\sigma ^{2} \log {2\pi \sigma ^{2}}\right)/2} と表されるとき、 f ( y ; θ ) = 1 2 π σ exp ( ( y θ ) 2 2 σ 2 ) {\displaystyle f(y;\theta )={\frac {1}{{\sqrt {2\pi }}\sigma }}\exp {\left(-{\frac {(y-\theta )^{2}}{2\sigma ^{2}}}\right)}} は平均 θ {\displaystyle \theta } , 分散 σ 2 {\displaystyle \sigma ^{2}} の正規分布に相当する。

リンク関数として g ( θ ) = θ {\displaystyle g(\theta )=\theta } (正準リンクとよぶ) を取るとき、これは、正規線型モデル (通常の線型回帰) に相当する。平均 θ {\displaystyle \theta } x T β {\displaystyle \mathbf {x} ^{T}\,{\boldsymbol {\beta }}} で与えられる。

ベルヌーイ分布に従うモデル

p = e θ / ( 1 e θ ) {\displaystyle p=e^{\theta }/(1 e^{\theta })} を用いて a ( θ ) = log ( 1 p ) {\displaystyle a(\theta )=-\log {(1-p)}} , ϕ = 1 {\displaystyle \phi =1} , c = 0 {\displaystyle c=0} と表されるとき、 f ( y ; θ ) = p y ( 1 p ) 1 y {\displaystyle f(y;\theta )=p^{y}(1-p)^{1-y}} は生起確率 p {\displaystyle p} のベルヌーイ分布に相当する。

リンク関数として g ( θ ) = θ {\displaystyle g(\theta )=\theta } を取るとき、これはロジスティック回帰モデル (logistic regression model) に相当する。 Y = 1 , 0 {\displaystyle Y=1,0} の確率は、それぞれ、

で与えられる。

リンク関数として g ( θ ) = ψ 1 ( p ) {\displaystyle g(\theta )=\psi ^{-1}(p)} (ただし、 ψ {\displaystyle \psi } は標準正規分布の累積分布関数) を取るとき、これはプロビット回帰モデルに相当する。 p = ψ ( x T β ) {\displaystyle p=\psi (\mathbf {x} ^{T}\,{\boldsymbol {\beta }})} となる。

パラメーターの決定には、ニュートン法を用いた最尤法などがある。

脚注

参考文献

  • McCullagh, Peter; Nelder, John (1989). Generalized Linear Models, Second Edition. Boca Raton: Chapman and Hall/CRC. ISBN 0-412-31760-5 
  • Henrik Madsen and Poul Thyregod (2011). Introduction to General and Generalized Linear Models. Chapman & Hall/CRC. ISBN 978-1-4200-9155-7 
  • Julia でデータサイエンス 一般化線形モデルにおける各種診断プロットの描画法の Julia コード

関連項目

  • 一般線形モデル
  • 混合モデル
  • 一般化線形混合モデル

一般化線形モデル (GLM):一般線形モデルの拡張モデル 研究型データサイエンティストのブログ

一般化線形モデルの仕上げ 医療データ奮闘記

一般化線形モデル 負の二項分布の紹介

一般化線形混合効果モデルとは?EZRでの解析方法も YouTube

一般化線形モデル入門 原著第2版(講談社) 書籍紹介 統計WEB