\[
% general purpose
\newcommand{\ctext}[1]{\raise0.2ex\hbox{\textcircled{\scriptsize{#1}}}}
% mathematics
% general purpose
\DeclarePairedDelimiterX{\parens}[1]{\lparen}{\rparen}{#1}
\DeclarePairedDelimiterX{\braces}[1]{\lbrace}{\rbrace}{#1}
\DeclarePairedDelimiterX{\bracks}[1]{\lbrack}{\rbrack}{#1}
\DeclarePairedDelimiterX{\verts}[1]{|}{|}{#1}
\DeclarePairedDelimiterX{\Verts}[1]{\|}{\|}{#1}
\newcommand{\as}{{\quad\textrm{as}\quad}}
\newcommand{\st}{{\textrm{ s.t. }}}
\DeclarePairedDelimiterX{\setComprehension}[2]{\lbrace}{\rbrace}{#1\,\delimsize\vert\,#2}
\newcommand{\naturalNumbers}{\mathbb{N}}
\newcommand{\integers}{\mathbb{Z}}
\newcommand{\rationalNumbers}{\mathbb{Q}}
\newcommand{\realNumbers}{\mathbb{R}}
\newcommand{\complexNumbers}{\mathbb{C}}
\newcommand{\field}{\mathbb{F}}
\newcommand{\func}[2]{{#1}\parens*{#2}}
\newcommand*{\argmax}{\operatorname*{arg~max}}
\newcommand*{\argmin}{\operatorname*{arg~min}}
% set theory
\newcommand{\range}[2]{\braces*{#1,\dotsc,#2}}
\providecommand{\complement}{}\renewcommand{\complement}{\mathrm{c}}
\newcommand{\ind}[2]{\mathbbm{1}_{#1}\parens*{#2}}
\newcommand{\indII}[1]{\mathbbm{1}\braces*{#1}}
% number theory
\newcommand{\abs}[1]{\verts*{#1}}
\newcommand{\combi}[2]{{_{#1}\mathrm{C}_{#2}}}
\newcommand{\perm}[2]{{_{#1}\mathrm{P}_{#2}}}
\newcommand{\GaloisField}[1]{\mathrm{GF}\parens*{#1}}
% analysis
\newcommand{\NapierE}{\mathrm{e}}
\newcommand{\sgn}[1]{\operatorname{sgn}\parens*{#1}}
\newcommand*{\rect}{\operatorname{rect}}
\newcommand{\cl}[1]{\operatorname{cl}#1}
\newcommand{\Img}[1]{\operatorname{Img}\parens*{#1}}
\newcommand{\dom}[1]{\operatorname{dom}\parens*{#1}}
\newcommand{\norm}[1]{\Verts*{#1}}
\newcommand{\floor}[1]{\left\lfloor#1\right\rfloor}
\newcommand{\ceil}[1]{\left\lceil#1\right\rceil}
\newcommand{\expo}[1]{\exp\parens*{#1}}
\newcommand*{\sinc}{\operatorname{sinc}}
\newcommand*{\nsinc}{\operatorname{nsinc}}
\newcommand{\GammaFunc}[1]{\Gamma\parens*{#1}}
\newcommand*{\erf}{\operatorname{erf}}
% inverse trigonometric functions
\newcommand{\asin}[1]{\operatorname{Sin}^{-1}{#1}}
\newcommand{\acos}[1]{\operatorname{Cos}^{-1}{#1}}
\newcommand{\atan}[1]{\operatorname{{Tan}^{-1}}{#1}}
\newcommand{\atanEx}[2]{\atan{\parens*{#1,#2}}}
% convolution
\newcommand{\cycConv}[2]{{#1}\underset{\text{cyc}}{*}{#2}}
% derivative
\newcommand{\deriv}[3]{\frac{\operatorname{d}^{#3}#1}{\operatorname{d}{#2}^{#3}}}
\newcommand{\derivLong}[3]{\frac{\operatorname{d}^{#3}}{\operatorname{d}{#2}^{#3}}#1}
\newcommand{\partDeriv}[3]{\frac{\operatorname{\partial}^{#3}#1}{\operatorname{\partial}{#2}^{#3}}}
\newcommand{\partDerivLong}[3]{\frac{\operatorname{\partial}^{#3}}{\operatorname{\partial}{#2}^{#3}}#1}
\newcommand{\partDerivIIHetero}[3]{\frac{\operatorname{\partial}^2#1}{\partial#2\operatorname{\partial}#3}}
\newcommand{\partDerivIIHeteroLong}[3]{{\frac{\operatorname{\partial}^2}{\partial#2\operatorname{\partial}#3}#1}}
% integral
\newcommand{\integrate}[5]{\int_{#1}^{#2}{#3}{\mathrm{d}^{#4}}#5}
\newcommand{\LebInteg}[4]{\int_{#1} {#2} {#3}\parens*{\mathrm{d}#4}}
% complex analysis
\newcommand{\conj}[1]{\overline{#1}}
\providecommand{\Re}{}\renewcommand{\Re}[1]{{\operatorname{Re}{\parens*{#1}}}}
\providecommand{\Im}{}\renewcommand{\Im}[1]{{\operatorname{Im}{\parens*{#1}}}}
\newcommand*{\Arg}{\operatorname{Arg}}
\newcommand*{\Log}{\operatorname{Log}}
% Laplace transform
\newcommand{\LPLC}[1]{\operatorname{\mathcal{L}}\parens*{#1}}
\newcommand{\ILPLC}[1]{\operatorname{\mathcal{L}}^{-1}\parens*{#1}}
% Discrete Fourier Transform
\newcommand{\DFT}[1]{\mathrm{DFT}\parens*{#1}}
% Z transform
\newcommand{\ZTrans}[1]{\operatorname{\mathcal{Z}}\parens*{#1}}
\newcommand{\IZTrans}[1]{\operatorname{\mathcal{Z}}^{-1}\parens*{#1}}
% linear algebra
\newcommand{\bm}[1]{{\boldsymbol{#1}}}
\newcommand{\matEntry}[3]{#1\bracks*{#2}\bracks*{#3}}
\newcommand{\matPart}[5]{\matEntry{#1}{#2:#3}{#4:#5}}
\newcommand{\diag}[1]{\operatorname{diag}\parens*{#1}}
\newcommand{\tr}[1]{\operatorname{tr}{\parens*{#1}}}
\newcommand{\inprod}[2]{\left\langle#1,#2\right\rangle}
\newcommand{\HadamardProd}{\odot}
\newcommand{\HadamardDiv}{\oslash}
\newcommand{\Span}[1]{\operatorname{span}\bracks*{#1}}
\newcommand{\Ker}[1]{\operatorname{Ker}\parens*{#1}}
\newcommand{\rank}[1]{\operatorname{rank}\parens*{#1}}
% vector
% unit vector
\newcommand{\vix}{\bm{i}_x}
\newcommand{\viy}{\bm{i}_y}
\newcommand{\viz}{\bm{i}_z}
% probability theory
\newcommand{\PDF}[2]{\operatorname{PDF}\bracks*{#1,\;#2}}
\newcommand{\Ber}[1]{\operatorname{Ber}\parens*{#1}}
\newcommand{\Beta}[2]{\operatorname{Beta}\parens*{#1,#2}}
\newcommand{\ExpDist}[1]{\operatorname{ExpDist}\parens*{#1}}
\newcommand{\ErlangDist}[2]{\operatorname{ErlangDist}\parens*{#1,#2}}
\newcommand{\PoissonDist}[1]{\operatorname{PoissonDist}\parens*{#1}}
\newcommand{\GammaDist}[2]{\operatorname{Gamma}\parens*{#1,#2}}
\newcommand{\cind}[2]{\ind{#1\left| #2\right.}} % conditional indicator function
\providecommand{\Pr}{}\renewcommand{\Pr}[1]{\operatorname{Pr}\parens*{#1}}
\DeclarePairedDelimiterX{\cPrParens}[2]{(}{)}{#1\,\delimsize\vert\,#2}
\newcommand{\cPr}[2]{\operatorname{Pr}\cPrParens{#1}{#2}}
\newcommand{\E}[2]{\operatorname{E}_{#1}\bracks*{#2}}
\newcommand{\cE}[3]{\E{#1}{\left.#2\right|#3}}
\newcommand{\Var}[2]{\operatorname{Var}_{#1}\bracks*{#2}}
\newcommand{\Cov}[2]{\operatorname{Cov}\bracks*{#1,#2}}
\newcommand{\CovMat}[1]{\operatorname{Cov}\bracks*{#1}}
% graph theory
\newcommand{\neighborhood}{\mathcal{N}}
% programming
\newcommand{\plpl}{\mathrel{++}}
\newcommand{\pleq}{\mathrel{+}=}
\newcommand{\asteq}{\mathrel{*}=}
\]
はじめに
動機は忘れたが、2値分類問題を解く方法の一つである「Probitモデル」について調べた。納得するのに手数を要した事柄について備忘録代わりにまとめておく。本記事で使う記号は英語版Wikipediaの記事に従う。
潜在変数モデルについて
潜在変数モデルでは、独立変数$\bm{X} = [X_0,X_1,\dots,X_n]^\top \in \mathbb{R}^n$に対して潜在変数は$Y’ = \bm{\beta}^\top\bm{X} + \varepsilon,\;(\bm{\beta} = [\beta_0,\beta_1,\dots,\beta_n]^\top \in \mathbb{R} ^n)$と仮定される。
$\varepsilon$は標準正規分布に従う確率変数である。ただし$\bm{X}$の最初の要素$X_0$は1に固定されている(これによって分布のオフセットを表現している)。従属変数$Y$は次の規則で決まるものと仮定される。
$$
Y = \begin{cases}
1 & Y’ > 0 \\
0 & \text{otherwise}
\end{cases}
$$
すなわち
$$
\cPr{Y=1}{\bm{\beta},\bm{X}} = \cPr{-\varepsilon < \bm{\beta}^\top\bm{X}}{\bm{\beta},\bm{X}} = \cPr{\varepsilon < \bm{\beta}^\top\bm{X}}{\bm{\beta},\bm{X}} = \Phi(\bm{\beta}^\top\bm{X})
$$
最後から二番目の等号は、標準正規分布が原点に関して対称であることから成り立つ。また、$\Phi(x) = 1/(1+e^{-x})$は標準正規分布の累積分布関数である。
対数尤度関数が上に凸であること
以下に述べるように、対数尤度関数は大域的に上に凸である。このため、勾配降下法ベースの最適化アルゴリズムによって$\bm{\beta}$の推定値を計算できる。
独立変数と従属変数の観測値の組$\{\bm{x}_i,y_i\},\;(i=1,2,\dots,N)$から最尤推定により$\bm{\beta}$を推定するための尤度関数は次式である。
$$
\prod_{i=1}^N \Phi(\bm{\beta}^\top\bm{X}_i)^{y_i} \left(1-\Phi(\bm{\beta}^\top\bm{X}_i)\right)^{1-y_i}
$$
上式の対数をとり、対数尤度関数$f$を得る(次式)。
$$
f(\bm{\beta}) = \sum_{i=1}^N \left[y_i \log(\Phi(\bm{\beta}^\top\bm{X}_i)) + (1-y_i)\log\left(1-\Phi(\bm{\beta}^\top\bm{X}_i)\right)\right]
$$
これが$\bm{\beta}$に関して上に凸であることを示す。個々の項が上に凸であることを示せばよい。なぜならば、上に凸な関数の和もまた上に凸であるから。証明をさらに省力化するため、次の性質を使う。
$$
\begin{aligned}
1-\Phi(\bm{\beta}^\top\bm{X}) &= \cPr{Y=0}{\bm{\beta},\bm{X}} = \cPr{\bm{\beta}^\top\bm{X} + \varepsilon \leq 0}{\bm{\beta},\bm{X}} \\
&= \cPr{\varepsilon \leq -\bm{\beta}^\top\bm{X}}{\bm{\beta},\bm{X}} = \cPr{\varepsilon < -\bm{\beta}^\top\bm{X}}{\bm{\beta},\bm{X}} \\
&= \Phi(-\bm{\beta}^\top\bm{X})
\end{aligned}
$$
最後から2番目の等号は標準正規分布が連続型分布であることから従う。$\log\left(\Phi(-\bm{\beta}^\top\bm{X})\right)$は$\log\left(\Phi(\bm{\beta}^\top\bm{X})\right)$を原点に関して対称に折り返したものであるから、後者が上に凸であれば前者もそうである。
結局、$f$が$\bm{\beta}$に関して上に凸であることを言うには$g(\bm{\beta}) := \log\left(\Phi(\bm{\beta}^\top\bm{X})\right)$がそうであることを示せば良い。
$\phi(x) := \frac{\mathrm{d}\Phi(x)}{\mathrm{d}x}$を標準正規分布の確率密度関数とする。
$$
\begin{aligned}
\frac{\partial g(\bm{\beta})}{\partial \beta_i} &= \frac{\phi(\bm{\beta}^\top\bm{X})}{\Phi(\bm{\beta}^\top\bm{X})} X_i \\
\frac{\partial^2 g}{\partial \beta_i\partial \beta_j}(\bm{x}) &= \frac{X_i}{\Phi(\bm{\beta}^\top\bm{X})^2}\left(\phi'(\bm{\beta}^\top\bm{X})X_j\Phi(\bm{\beta}^\top\bm{X}) – \phi(\bm{\beta}^\top\bm{X})^2 X_j\right) \\
&= \frac{X_i X_j}{\Phi(\bm{\beta}^\top\bm{X})^2}\left(-(\bm{\beta}^\top\bm{X})\phi(\bm{\beta}^\top\bm{X})\Phi(\bm{\beta}^\top\bm{X}) – \phi(\bm{\beta}^\top\bm{X})^2\right) \\
&\phantom{=} (\phi'(x) = -x\phi(x),\; x \in \mathbb{R}\;\text{を用いた}) \\
&= -X_i X_j\frac{\phi(\bm{\beta}^\top\bm{X})}{\Phi(\bm{\beta}^\top\bm{X})^2}\left((\bm{\beta}^\top\bm{X})\Phi(\bm{\beta}^\top\bm{X}) + \phi(\bm{\beta}^\top\bm{X})\right) \\
\therefore \nabla^2 g(\bm{\beta}) &= -\frac{\phi(\bm{\beta}^\top\bm{X})}{\Phi(\bm{\beta}^\top\bm{X})^2}\left((\bm{\beta}^\top\bm{X})\Phi(\bm{\beta}^\top\bm{X}) + \phi(\bm{\beta}^\top\bm{X})\right) \bm{X}\bm{X}^\top
\end{aligned}
$$
$-\frac{\phi(\bm{\beta}^\top\bm{X})}{\Phi(\bm{\beta}^\top\bm{X})^2} < 0,\;\bm{X}\bm{X}^\top \succeq O$であることは容易に判る($\succeq$は半正定を表す)。$(\bm{\beta}^\top\bm{X})\Phi(\bm{\beta}^\top\bm{X}) + \phi(\bm{\beta}^\top\bm{X}) > 0$を示す。 そのためには$h(x) := x\Phi(x) + \phi(x),\;x\in\mathbb{R}$とおいて$h(x) > 0$であることを示せば充分である。 $x>0$のとき$h(x)>0$であること、および$g(0) = 1/2$は容易に判る。これと$h'(x) = \Phi(x) + x\phi(x) – x\phi(x) = \Phi(x) > 0$より$h(x)>0$である。
以上より$\nabla^2 g(\bm{\beta}) \preceq O$であり、$g$は上に凸である。ここに、$\preceq$は半負定を表す。
以上より$f$は少なくとも上に凸である。実用上は多数のランダムサンプル$\bm{X}_i$を用いるため、$f$のHesse行列は厳密に負定となることが普通である。このとき$f$は上に狭義凸である。
Mathematicaによる数値例
最後にMathematicaによる数値実験を行う。$\bm{\beta}=[-0.25,0.5,-0.5]^\top$としてランダムサンプルを生成し、$\bm{\beta}$を推定してみた。
投稿者: motchy
An embedded software and FPGA engineer for measuring instrument.
motchy のすべての投稿を表示