Sherman-Morrisonの公式の導出

Kalman-filterをはじめとする、逐次的な2乗誤差最小化に基づくリアルタイム信号処理では、損失関数を構成する2次形式の基になる行列の逆行列を高速で求める必要がある。そのような状況で頼りになるSherman-Morrisonの公式を導出する。Woodburyの公式の特別な場合として片付けられるのが一般的だが、本記事ではJordan分解を用いて導出してみる。

\[ % general purpose \newcommand{\ctext}[1]{\raise0.2ex\hbox{\textcircled{\scriptsize{#1}}}} % mathematics % general purpose \DeclarePairedDelimiterX{\parens}[1]{\lparen}{\rparen}{#1} \DeclarePairedDelimiterX{\braces}[1]{\lbrace}{\rbrace}{#1} \DeclarePairedDelimiterX{\bracks}[1]{\lbrack}{\rbrack}{#1} \DeclarePairedDelimiterX{\verts}[1]{|}{|}{#1} \DeclarePairedDelimiterX{\Verts}[1]{\|}{\|}{#1} \newcommand{\as}{{\quad\textrm{as}\quad}} \newcommand{\st}{{\textrm{ s.t. }}} \DeclarePairedDelimiterX{\setComprehension}[2]{\lbrace}{\rbrace}{#1\,\delimsize\vert\,#2} \newcommand{\naturalNumbers}{\mathbb{N}} \newcommand{\integers}{\mathbb{Z}} \newcommand{\rationalNumbers}{\mathbb{Q}} \newcommand{\realNumbers}{\mathbb{R}} \newcommand{\complexNumbers}{\mathbb{C}} \newcommand{\field}{\mathbb{F}} \newcommand{\func}[2]{{#1}\parens*{#2}} \newcommand*{\argmax}{\operatorname*{arg~max}} \newcommand*{\argmin}{\operatorname*{arg~min}} % set theory \newcommand{\range}[2]{\braces*{#1,\dotsc,#2}} \providecommand{\complement}{}\renewcommand{\complement}{\mathrm{c}} \newcommand{\ind}[2]{\mathbbm{1}_{#1}\parens*{#2}} \newcommand{\indII}[1]{\mathbbm{1}\braces*{#1}} % number theory \newcommand{\abs}[1]{\verts*{#1}} \newcommand{\combi}[2]{{_{#1}\mathrm{C}_{#2}}} \newcommand{\perm}[2]{{_{#1}\mathrm{P}_{#2}}} \newcommand{\GaloisField}[1]{\mathrm{GF}\parens*{#1}} % analysis \newcommand{\NapierE}{\mathrm{e}} \newcommand{\sgn}[1]{\operatorname{sgn}\parens*{#1}} \newcommand*{\rect}{\operatorname{rect}} \newcommand{\cl}[1]{\operatorname{cl}#1} \newcommand{\Img}[1]{\operatorname{Img}\parens*{#1}} \newcommand{\dom}[1]{\operatorname{dom}\parens*{#1}} \newcommand{\norm}[1]{\Verts*{#1}} \newcommand{\floor}[1]{\left\lfloor#1\right\rfloor} \newcommand{\ceil}[1]{\left\lceil#1\right\rceil} \newcommand{\expo}[1]{\exp\parens*{#1}} \newcommand{\sinc}{\operatorname{sinc}} \newcommand{\nsinc}{\operatorname{nsinc}} \newcommand{\GammaFunc}[1]{\Gamma\parens*{#1}} \newcommand*{\erf}{\operatorname{erf}} % inverse trigonometric functions \newcommand{\asin}[1]{\operatorname{Sin}^{-1}{#1}} \newcommand{\acos}[1]{\operatorname{Cos}^{-1}{#1}} \newcommand{\atan}[1]{\operatorname{{Tan}^{-1}}{#1}} \newcommand{\atanEx}[2]{\atan{\parens*{#1,#2}}} % convolution \newcommand{\cycConv}[2]{{#1}\underset{\text{cyc}}{*}{#2}} % derivative \newcommand{\deriv}[3]{\frac{\operatorname{d}^{#3}#1}{\operatorname{d}{#2}^{#3}}} \newcommand{\derivLong}[3]{\frac{\operatorname{d}^{#3}}{\operatorname{d}{#2}^{#3}}#1} \newcommand{\partDeriv}[3]{\frac{\operatorname{\partial}^{#3}#1}{\operatorname{\partial}{#2}^{#3}}} \newcommand{\partDerivLong}[3]{\frac{\operatorname{\partial}^{#3}}{\operatorname{\partial}{#2}^{#3}}#1} \newcommand{\partDerivIIHetero}[3]{\frac{\operatorname{\partial}^2#1}{\partial#2\operatorname{\partial}#3}} \newcommand{\partDerivIIHeteroLong}[3]{{\frac{\operatorname{\partial}^2}{\partial#2\operatorname{\partial}#3}#1}} % integral \newcommand{\integrate}[5]{\int_{#1}^{#2}{#3}{\mathrm{d}^{#4}}#5} \newcommand{\LebInteg}[4]{\int_{#1} {#2} {#3}\parens*{\mathrm{d}#4}} % complex analysis \newcommand{\conj}[1]{\overline{#1}} \providecommand{\Re}{}\renewcommand{\Re}[1]{{\operatorname{Re}{\parens*{#1}}}} \providecommand{\Im}{}\renewcommand{\Im}[1]{{\operatorname{Im}{\parens*{#1}}}} \newcommand*{\Arg}{\operatorname{Arg}} \newcommand*{\Log}{\operatorname{Log}} % Laplace transform \newcommand{\LPLC}[1]{\operatorname{\mathcal{L}}\parens*{#1}} \newcommand{\ILPLC}[1]{\operatorname{\mathcal{L}}^{-1}\parens*{#1}} % Discrete Fourier Transform \newcommand{\DFT}[1]{\mathrm{DFT}\parens*{#1}} % Z transform \newcommand{\ZTrans}[1]{\operatorname{\mathcal{Z}}\parens*{#1}} \newcommand{\IZTrans}[1]{\operatorname{\mathcal{Z}}^{-1}\parens*{#1}} % linear algebra \newcommand{\bm}[1]{{\boldsymbol{#1}}} \newcommand{\matEntry}[3]{#1\bracks*{#2}\bracks*{#3}} \newcommand{\matPart}[5]{\matEntry{#1}{#2:#3}{#4:#5}} \newcommand{\diag}[1]{\operatorname{diag}\parens*{#1}} \newcommand{\tr}[1]{\operatorname{tr}{\parens*{#1}}} \newcommand{\inprod}[2]{\left\langle#1,#2\right\rangle} \newcommand{\HadamardProd}{\odot} \newcommand{\HadamardDiv}{\oslash} \newcommand{\Span}[1]{\operatorname{span}\bracks*{#1}} \newcommand{\Ker}[1]{\operatorname{Ker}\parens*{#1}} \newcommand{\rank}[1]{\operatorname{rank}\parens*{#1}} % vector % unit vector \newcommand{\vix}{\bm{i}_x} \newcommand{\viy}{\bm{i}_y} \newcommand{\viz}{\bm{i}_z} % probability theory \newcommand{\PDF}[2]{\operatorname{PDF}\bracks*{#1,\;#2}} \newcommand{\Ber}[1]{\operatorname{Ber}\parens*{#1}} \newcommand{\Beta}[2]{\operatorname{Beta}\parens*{#1,#2}} \newcommand{\ExpDist}[1]{\operatorname{ExpDist}\parens*{#1}} \newcommand{\ErlangDist}[2]{\operatorname{ErlangDist}\parens*{#1,#2}} \newcommand{\PoissonDist}[1]{\operatorname{PoissonDist}\parens*{#1}} \newcommand{\GammaDist}[2]{\operatorname{Gamma}\parens*{#1,#2}} \newcommand{\cind}[2]{\ind{#1\left| #2\right.}} % conditional indicator function \providecommand{\Pr}{}\renewcommand{\Pr}[1]{\operatorname{Pr}\parens*{#1}} \DeclarePairedDelimiterX{\cPrParens}[2]{(}{)}{#1\,\delimsize\vert\,#2} \newcommand{\cPr}[2]{\operatorname{Pr}\cPrParens{#1}{#2}} \newcommand{\E}[2]{\operatorname{E}_{#1}\bracks*{#2}} \newcommand{\cE}[3]{\E{#1}{\left.#2\right|#3}} \newcommand{\Var}[2]{\operatorname{Var}_{#1}\bracks*{#2}} \newcommand{\Cov}[2]{\operatorname{Cov}\bracks*{#1,#2}} \newcommand{\CovMat}[1]{\operatorname{Cov}\bracks*{#1}} % graph theory \newcommand{\neighborhood}{\mathcal{N}} % programming \newcommand{\plpl}{\mathrel{++}} \newcommand{\pleq}{\mathrel{+}=} \newcommand{\asteq}{\mathrel{*}=} \]

補題1(行列式の中身のサイズ変更)

主張

$A\in\realNumbers^{n\times m}, B\in\realNumbers^{m\times n}$に対して$|I_m-AB| = |I_n-BA|$

導出

\[ M \coloneqq \begin{bmatrix} I_n & A \\ B & I_m \end{bmatrix} \]

とすると

\[ \det{M} = \det{ \left(M \begin{bmatrix} I_n & -A \\ O & I_m \end{bmatrix} \right) } = \det{ \begin{bmatrix} I_n & O \\ B & I_m-BA \end{bmatrix} } = |I_m-BA| \]

一方で

\[ \det{M} = \det{ \left(M \begin{bmatrix} I_n & O \\ -B & I_m \end{bmatrix} \right) } = \det{ \begin{bmatrix} I_n-AB & A \\ ~ & I_m \end{bmatrix} } = |I_n-AB| \]

$\square$

補題2(Sherman-Morrisonの公式の特別な場合)

主張

$\bm{u},\bm{v} \in \complexNumbers^m,\; 1+\bm{v}^*\bm{u} \neq 0$とするとき次式が成り立つ。

\[ (I+\bm{u}\bm{v}^*)^{-1} = I – \frac{1}{1+\bm{v}^*\bm{u}}\bm{u}\bm{v}^* \]

導出

$\bm{u}\bm{v}^* = O$のときは定理の主張は明らかに成り立つ。以下では$\bm{u}\bm{v}^* \neq O$とする。仮定$1+\bm{v}^*\bm{u} \neq 0$と前掲の補題1より$I+\bm{u}\bm{v}^*$には逆行列が存在する。$\bm{u}\bm{v}^*$の階数は1であり($\Img{\bm{u}\bm{v}^*} = \Span{\bm{u}}$)、唯一の固有値は$\bm{v}^*\bm{u}$である(対応する固有ベクトルは$\bm{u}$)。よって$\bm{u}\bm{v}^*$をJordan分解すると、適当な正則行列$J$を用いて次のように表せる。

\[ \bm{u}\bm{v}^* = J \begin{bmatrix} \bm{v}^*\bm{u} & \bm{0}^\top \\ \bm{0} & O \end{bmatrix} J^{-1} \eqqcolon J\Lambda J^{-1} \]

よって

\begin{align*} (I+\bm{u}\bm{v}^*)^{-1} &= J(I + \Lambda)^{-1}J^{-1} = J \begin{bmatrix} 1+\bm{v}^*\bm{u} & \bm{0}^\top \\ \bm{0} & I \end{bmatrix} ^{-1}J^{-1} = J \begin{bmatrix} \frac{1}{1+\bm{v}^*\bm{u}} & \bm{0}^\top \\ \bm{0} & I \end{bmatrix} J^{-1} \\ &= J\frac{1}{1+\bm{v}^*\bm{u}} \begin{bmatrix} 1 & \bm{0}^\top \\ \bm{0} & (1+\bm{v}^*\bm{u})I \end{bmatrix} J^{-1} = J\frac{1}{1+\bm{v}^*\bm{u}}((1+\bm{v}^*\bm{u})I – \Lambda)J^{-1} \\ &= I – \frac{1}{1+\bm{v}^*\bm{u}}\bm{u}\bm{v}^* \end{align*}

$\square$

Sherman-Morrisonの公式

主張

$A \in \complexNumbers^{m\times m}, \bm{u},\bm{v} \in \complexNumbers^m$とする。$A$は可逆であるとし、$1+\bm{v}^*A^{-1}\bm{u} \neq 0$とする。このとき次式が成り立つ。

\[ (A+\bm{u}\bm{v}^*)^{-1} = \left( I – \frac{1}{1+\bm{v}^*A^{-1}\bm{u}}A^{-1}\bm{u}\bm{v}^* \right)A^{-1} \]

導出

$A+\bm{u}\bm{v}^* = A(I + A^{-1}\bm{u}\bm{v}^*)$だから$(A+\bm{u}\bm{v}^*)^{-1} = (I + A^{-1}\bm{u}\bm{v}^*)^{-1}A^{-1}$であり、1つ目の因子に前掲の補題2を適用すればよい。

$\square$

投稿者: motchy

An embedded software and FPGA engineer for measuring instrument.

コメントを残す