\[
% general purpose
\newcommand{\ctext}[1]{\raise0.2ex\hbox{\textcircled{\scriptsize{#1}}}}
% mathematics
% general purpose
\DeclarePairedDelimiterX{\parens}[1]{\lparen}{\rparen}{#1}
\DeclarePairedDelimiterX{\braces}[1]{\lbrace}{\rbrace}{#1}
\DeclarePairedDelimiterX{\bracks}[1]{\lbrack}{\rbrack}{#1}
\DeclarePairedDelimiterX{\verts}[1]{|}{|}{#1}
\DeclarePairedDelimiterX{\Verts}[1]{\|}{\|}{#1}
\newcommand{\as}{{\quad\textrm{as}\quad}}
\newcommand{\st}{{\textrm{ s.t. }}}
\DeclarePairedDelimiterX{\setComprehension}[2]{\lbrace}{\rbrace}{#1\,\delimsize\vert\,#2}
\newcommand{\naturalNumbers}{\mathbb{N}}
\newcommand{\integers}{\mathbb{Z}}
\newcommand{\rationalNumbers}{\mathbb{Q}}
\newcommand{\realNumbers}{\mathbb{R}}
\newcommand{\complexNumbers}{\mathbb{C}}
\newcommand{\field}{\mathbb{F}}
\newcommand{\func}[2]{{#1}\parens*{#2}}
\newcommand*{\argmax}{\operatorname*{arg~max}}
\newcommand*{\argmin}{\operatorname*{arg~min}}
% set theory
\newcommand{\range}[2]{\braces*{#1,\dotsc,#2}}
\providecommand{\complement}{}\renewcommand{\complement}{\mathrm{c}}
\newcommand{\ind}[2]{\mathbbm{1}_{#1}\parens*{#2}}
\newcommand{\indII}[1]{\mathbbm{1}\braces*{#1}}
% number theory
\newcommand{\abs}[1]{\verts*{#1}}
\newcommand{\combi}[2]{{_{#1}\mathrm{C}_{#2}}}
\newcommand{\perm}[2]{{_{#1}\mathrm{P}_{#2}}}
\newcommand{\GaloisField}[1]{\mathrm{GF}\parens*{#1}}
% analysis
\newcommand{\NapierE}{\mathrm{e}}
\newcommand{\sgn}[1]{\operatorname{sgn}\parens*{#1}}
\newcommand*{\rect}{\operatorname{rect}}
\newcommand{\cl}[1]{\operatorname{cl}#1}
\newcommand{\Img}[1]{\operatorname{Img}\parens*{#1}}
\newcommand{\dom}[1]{\operatorname{dom}\parens*{#1}}
\newcommand{\norm}[1]{\Verts*{#1}}
\newcommand{\floor}[1]{\left\lfloor#1\right\rfloor}
\newcommand{\ceil}[1]{\left\lceil#1\right\rceil}
\newcommand{\expo}[1]{\exp\parens*{#1}}
\newcommand*{\sinc}{\operatorname{sinc}}
\newcommand*{\nsinc}{\operatorname{nsinc}}
\newcommand{\GammaFunc}[1]{\Gamma\parens*{#1}}
\newcommand*{\erf}{\operatorname{erf}}
% inverse trigonometric functions
\newcommand{\asin}[1]{\operatorname{Sin}^{-1}{#1}}
\newcommand{\acos}[1]{\operatorname{Cos}^{-1}{#1}}
\newcommand{\atan}[1]{\operatorname{{Tan}^{-1}}{#1}}
\newcommand{\atanEx}[2]{\atan{\parens*{#1,#2}}}
% convolution
\newcommand{\cycConv}[2]{{#1}\underset{\text{cyc}}{*}{#2}}
% derivative
\newcommand{\deriv}[3]{\frac{\operatorname{d}^{#3}#1}{\operatorname{d}{#2}^{#3}}}
\newcommand{\derivLong}[3]{\frac{\operatorname{d}^{#3}}{\operatorname{d}{#2}^{#3}}#1}
\newcommand{\partDeriv}[3]{\frac{\operatorname{\partial}^{#3}#1}{\operatorname{\partial}{#2}^{#3}}}
\newcommand{\partDerivLong}[3]{\frac{\operatorname{\partial}^{#3}}{\operatorname{\partial}{#2}^{#3}}#1}
\newcommand{\partDerivIIHetero}[3]{\frac{\operatorname{\partial}^2#1}{\partial#2\operatorname{\partial}#3}}
\newcommand{\partDerivIIHeteroLong}[3]{{\frac{\operatorname{\partial}^2}{\partial#2\operatorname{\partial}#3}#1}}
% integral
\newcommand{\integrate}[5]{\int_{#1}^{#2}{#3}{\mathrm{d}^{#4}}#5}
\newcommand{\LebInteg}[4]{\int_{#1} {#2} {#3}\parens*{\mathrm{d}#4}}
% complex analysis
\newcommand{\conj}[1]{\overline{#1}}
\providecommand{\Re}{}\renewcommand{\Re}[1]{{\operatorname{Re}{\parens*{#1}}}}
\providecommand{\Im}{}\renewcommand{\Im}[1]{{\operatorname{Im}{\parens*{#1}}}}
\newcommand*{\Arg}{\operatorname{Arg}}
\newcommand*{\Log}{\operatorname{Log}}
% Laplace transform
\newcommand{\LPLC}[1]{\operatorname{\mathcal{L}}\parens*{#1}}
\newcommand{\ILPLC}[1]{\operatorname{\mathcal{L}}^{-1}\parens*{#1}}
% Discrete Fourier Transform
\newcommand{\DFT}[1]{\mathrm{DFT}\parens*{#1}}
% Z transform
\newcommand{\ZTrans}[1]{\operatorname{\mathcal{Z}}\parens*{#1}}
\newcommand{\IZTrans}[1]{\operatorname{\mathcal{Z}}^{-1}\parens*{#1}}
% linear algebra
\newcommand{\bm}[1]{{\boldsymbol{#1}}}
\newcommand{\matEntry}[3]{#1\bracks*{#2}\bracks*{#3}}
\newcommand{\matPart}[5]{\matEntry{#1}{#2:#3}{#4:#5}}
\newcommand{\diag}[1]{\operatorname{diag}\parens*{#1}}
\newcommand{\tr}[1]{\operatorname{tr}{\parens*{#1}}}
\newcommand{\inprod}[2]{\left\langle#1,#2\right\rangle}
\newcommand{\HadamardProd}{\odot}
\newcommand{\HadamardDiv}{\oslash}
\newcommand{\Span}[1]{\operatorname{span}\bracks*{#1}}
\newcommand{\Ker}[1]{\operatorname{Ker}\parens*{#1}}
\newcommand{\rank}[1]{\operatorname{rank}\parens*{#1}}
% vector
% unit vector
\newcommand{\vix}{\bm{i}_x}
\newcommand{\viy}{\bm{i}_y}
\newcommand{\viz}{\bm{i}_z}
% probability theory
\newcommand{\PDF}[2]{\operatorname{PDF}\bracks*{#1,\;#2}}
\newcommand{\Ber}[1]{\operatorname{Ber}\parens*{#1}}
\newcommand{\Beta}[2]{\operatorname{Beta}\parens*{#1,#2}}
\newcommand{\ExpDist}[1]{\operatorname{ExpDist}\parens*{#1}}
\newcommand{\ErlangDist}[2]{\operatorname{ErlangDist}\parens*{#1,#2}}
\newcommand{\PoissonDist}[1]{\operatorname{PoissonDist}\parens*{#1}}
\newcommand{\GammaDist}[2]{\operatorname{Gamma}\parens*{#1,#2}}
\newcommand{\cind}[2]{\ind{#1\left| #2\right.}} % conditional indicator function
\providecommand{\Pr}{}\renewcommand{\Pr}[1]{\operatorname{Pr}\parens*{#1}}
\DeclarePairedDelimiterX{\cPrParens}[2]{(}{)}{#1\,\delimsize\vert\,#2}
\newcommand{\cPr}[2]{\operatorname{Pr}\cPrParens{#1}{#2}}
\newcommand{\E}[2]{\operatorname{E}_{#1}\bracks*{#2}}
\newcommand{\cE}[3]{\E{#1}{\left.#2\right|#3}}
\newcommand{\Var}[2]{\operatorname{Var}_{#1}\bracks*{#2}}
\newcommand{\Cov}[2]{\operatorname{Cov}\bracks*{#1,#2}}
\newcommand{\CovMat}[1]{\operatorname{Cov}\bracks*{#1}}
% graph theory
\newcommand{\neighborhood}{\mathcal{N}}
% programming
\newcommand{\plpl}{\mathrel{++}}
\newcommand{\pleq}{\mathrel{+}=}
\newcommand{\asteq}{\mathrel{*}=}
\]
はじめに
前回の記事「Probitモデルについての考察」に続き、2値分類問題を解く方法の一つである「Logisticモデル」について調べた。納得するのに手数を要した事柄について備忘録代わりにまとめておく。本記事で使う記号は英語版Wikipediaの記事に従う。
なぜOddsの対数を使うのか?
- 確率の値域である、[0,1]の範囲の値を実数全体にマップしたい。
- Oddsによってまず[0,∞)にマップできる。
- それの対数をとれば(-∞,∞)にマップできる。
潜在変数モデルについて
潜在変数モデルでは、独立変数$\bm{X} = [X_0,X_1,\dots,X_n]^\top \in \mathbb{R}^n$に対して潜在変数は$Y’ = \bm{\beta}^\top\bm{X} + \varepsilon,\;(\bm{\beta} = [\beta_0,\beta_1,\dots,\beta_n]^\top \in \mathbb{R}^n)$と仮定される。$\varepsilon$は標準ロジスティック分布に従確率変数である。ただし$\bm{X}$の最初の要素$X_0$は1に固定されている(これによって分布のオフセットを表現している)。従属変数$Y$は次の規則で決まるものと仮定される。
$$
Y = \begin{cases}
1 & Y’ > 0 \\
0 & \text{otherwise}
\end{cases}
$$
すなわち
$$
\Pr(Y=1\;|\;\bm{\beta},\bm{X}) = \Pr(-\varepsilon < \bm{\beta}^\top\bm{X}\;|\;\bm{\beta},\bm{X}) = \Pr(\varepsilon < \bm{\beta}^\top\bm{X}\;|\;\bm{\beta},\bm{X}) = \Phi(\bm{\beta}^\top\bm{X})
$$
最後から二番目の等号は、標準ロジスティック分布が原点に関して対称であることから成り立つ。また、$\Phi(x) = 1/(1+e^{-x})$は標準ロジスティック分布の累積分布関数である。
対数尤度関数が上に凸であること
以下に述べるように、対数尤度関数は大域的に上に凸である。このため、勾配降下法ベースの最適化アルゴリズムによって$\bm{\beta}$の推定値を計算できる。
独立変数と従属変数の観測値の組$\{\bm{x}_i,y_i\},\;(i=1,2,\dots,N)$から最尤推定により$\bm{\beta}$を推定するための尤度関数は次式である。
$$
\prod_{i=1}^N \Phi(\bm{\beta}^\top\bm{X}_i)^{y_i} \left(1-\Phi(\bm{\beta}^\top\bm{X}_i)\right)^{1-y_i}
$$
上式の対数をとり、対数尤度関数$f$を得る(次式)。
$$
f(\bm{\beta}) = \sum_{i=1}^N \left[y_i \log(\Phi(\bm{\beta}^\top\bm{X}_i)) + (1-y_i)\log\left(1-\Phi(\bm{\beta}^\top\bm{X}_i)\right)\right]
$$
これが$\bm{\beta}$に関して上に凸であることを示す。個々の項が上に凸であることを示せばよい。なぜならば、上に凸な関数の和もまた上に凸であるから。証明をさらに省力化するため、次の性質を使う。
$$
\begin{aligned}
1-\Phi(\bm{\beta}^\top\bm{X}) &= \Pr(Y=0\;|\;\bm{\beta},\bm{X}) = \Pr(\bm{\beta}^\top\bm{X} + \varepsilon \leq 0\;|\;\bm{\beta},\bm{X}) \\
&= \Pr(\varepsilon \leq -\bm{\beta}^\top\bm{X}\;|\;\bm{\beta},\bm{X}) = \Pr(\varepsilon < -\bm{\beta}^\top\bm{X}\;|\;\bm{\beta},\bm{X}) \\
&= \Phi(-\bm{\beta}^\top\bm{X})
\end{aligned}
$$
最後から2番目の等号はロジスティック分布が連続型分布であることから従う。$\log\left(\Phi(-\bm{\beta}^\top\bm{X})\right)$は$\log\left(\Phi(\bm{\beta}^\top\bm{X})\right)$を原点に関して対称に折り返したものであるから、後者が上に凸であれば前者もそうである。
結局、$f$が$\bm{\beta}$に関して上に凸であることを言うには$g(\bm{\beta}) := \log\left(\Phi(\bm{\beta}^\top\bm{X})\right)$がそうであることを示せば良い。
まず$g$の勾配$\nabla g$を求める。$\phi(x) := \frac{\mathrm{d}\Phi(x)}{\mathrm{d}x}$を標準ロジスティック分布の確率密度関数とする。
$$
\begin{aligned}
\frac{\partial g(\bm{\beta})}{\partial \beta_i} &= \frac{\phi(\bm{\beta}^\top\bm{X})}{\Phi(\bm{\beta}^\top\bm{X})} X_i = \left(1+\exp(-\bm{\beta}^\top\bm{X})\right)\frac{\exp(-\bm{\beta}^\top\bm{X})}{\left(1+\exp(-\bm{\beta}^\top\bm{X})\right)^2}X_i \\
&= \frac{\exp(-\bm{\beta}^\top\bm{X})}{1+\exp(-\bm{\beta}^\top\bm{X})} X_i = \frac{X_i}{1+\exp(\bm{\beta}^\top\bm{X})} = X_i\Phi(-\bm{\beta}^\top\bm{X}) \\
\therefore \nabla g(\bm{\beta}) &= \Phi(-\bm{\beta}^\top\bm{X}) \bm{X}
\end{aligned}
$$
次に$g$のHesse行列$\nabla^2 g$を求める。
$$
\begin{aligned}
\frac{\partial^2 g(\bm{\beta})}{\partial \beta_i \partial \beta_j} &= X_i\frac{\partial}{\partial \beta_j} \Phi(-\bm{\beta}^\top\bm{X}) = X_i\phi(-\bm{\beta}^\top\bm{X})(-X_j) = -X_i X_j \phi(-\bm{\beta}^\top\bm{X}) \\
\therefore \nabla^2 g(\bm{\beta}) &= -\phi(-\bm{\beta}^\top\bm{X})\bm{X}\bm{X}^\top
\end{aligned}
$$
$\phi > 0,\;\bm{X}\bm{X}^\top \succeq O$であるから$\nabla^2 g \preceq O$であり、$g$は上に凸である。ここに、$\succeq$は半正定, $\preceq$は半負定を表す。
以上より$f$は少なくとも上に凸である。実用上は多数のランダムサンプル$\bm{X}_i$を用いるため、$f$のHesse行列は厳密に負定となることが普通である。このとき$f$は上に狭義凸である。
Mathematicaによる数値例
[-0.25,0.5,-0.5]^\top$としてランダムサンプルを生成し、$\bm{\beta}$を推定してみた。
投稿者: motchy
An embedded software and FPGA engineer for measuring instrument.
motchy のすべての投稿を表示