\[
% general purpose
\newcommand{\ctext}[1]{\raise0.2ex\hbox{\textcircled{\scriptsize{#1}}}}
% mathematics
% general purpose
\DeclarePairedDelimiterX{\parens}[1]{\lparen}{\rparen}{#1}
\DeclarePairedDelimiterX{\braces}[1]{\lbrace}{\rbrace}{#1}
\DeclarePairedDelimiterX{\bracks}[1]{\lbrack}{\rbrack}{#1}
\DeclarePairedDelimiterX{\verts}[1]{|}{|}{#1}
\DeclarePairedDelimiterX{\Verts}[1]{\|}{\|}{#1}
\newcommand{\as}{{\quad\textrm{as}\quad}}
\newcommand{\st}{{\textrm{ s.t. }}}
\DeclarePairedDelimiterX{\setComprehension}[2]{\lbrace}{\rbrace}{#1\,\delimsize\vert\,#2}
\newcommand{\naturalNumbers}{\mathbb{N}}
\newcommand{\integers}{\mathbb{Z}}
\newcommand{\rationalNumbers}{\mathbb{Q}}
\newcommand{\realNumbers}{\mathbb{R}}
\newcommand{\complexNumbers}{\mathbb{C}}
\newcommand{\field}{\mathbb{F}}
\newcommand{\func}[2]{{#1}\parens*{#2}}
\newcommand*{\argmax}{\operatorname*{arg~max}}
\newcommand*{\argmin}{\operatorname*{arg~min}}
% set theory
\newcommand{\range}[2]{\braces*{#1,\dotsc,#2}}
\providecommand{\complement}{}\renewcommand{\complement}{\mathrm{c}}
\newcommand{\ind}[2]{\mathbbm{1}_{#1}\parens*{#2}}
\newcommand{\indII}[1]{\mathbbm{1}\braces*{#1}}
% number theory
\newcommand{\abs}[1]{\verts*{#1}}
\newcommand{\combi}[2]{{_{#1}\mathrm{C}_{#2}}}
\newcommand{\perm}[2]{{_{#1}\mathrm{P}_{#2}}}
\newcommand{\GaloisField}[1]{\mathrm{GF}\parens*{#1}}
% analysis
\newcommand{\NapierE}{\mathrm{e}}
\newcommand{\sgn}[1]{\operatorname{sgn}\parens*{#1}}
\newcommand*{\rect}{\operatorname{rect}}
\newcommand{\cl}[1]{\operatorname{cl}#1}
\newcommand{\Img}[1]{\operatorname{Img}\parens*{#1}}
\newcommand{\dom}[1]{\operatorname{dom}\parens*{#1}}
\newcommand{\norm}[1]{\Verts*{#1}}
\newcommand{\floor}[1]{\left\lfloor#1\right\rfloor}
\newcommand{\ceil}[1]{\left\lceil#1\right\rceil}
\newcommand{\expo}[1]{\exp\parens*{#1}}
\newcommand{\sinc}{\operatorname{sinc}}
\newcommand{\nsinc}{\operatorname{nsinc}}
\newcommand{\GammaFunc}[1]{\Gamma\parens*{#1}}
\newcommand*{\erf}{\operatorname{erf}}
% inverse trigonometric functions
\newcommand{\asin}[1]{\operatorname{Sin}^{-1}{#1}}
\newcommand{\acos}[1]{\operatorname{Cos}^{-1}{#1}}
\newcommand{\atan}[1]{\operatorname{{Tan}^{-1}}{#1}}
\newcommand{\atanEx}[2]{\atan{\parens*{#1,#2}}}
% convolution
\newcommand{\cycConv}[2]{{#1}\underset{\text{cyc}}{*}{#2}}
% derivative
\newcommand{\deriv}[3]{\frac{\operatorname{d}^{#3}#1}{\operatorname{d}{#2}^{#3}}}
\newcommand{\derivLong}[3]{\frac{\operatorname{d}^{#3}}{\operatorname{d}{#2}^{#3}}#1}
\newcommand{\partDeriv}[3]{\frac{\operatorname{\partial}^{#3}#1}{\operatorname{\partial}{#2}^{#3}}}
\newcommand{\partDerivLong}[3]{\frac{\operatorname{\partial}^{#3}}{\operatorname{\partial}{#2}^{#3}}#1}
\newcommand{\partDerivIIHetero}[3]{\frac{\operatorname{\partial}^2#1}{\partial#2\operatorname{\partial}#3}}
\newcommand{\partDerivIIHeteroLong}[3]{{\frac{\operatorname{\partial}^2}{\partial#2\operatorname{\partial}#3}#1}}
% integral
\newcommand{\integrate}[5]{\int_{#1}^{#2}{#3}{\mathrm{d}^{#4}}#5}
\newcommand{\LebInteg}[4]{\int_{#1} {#2} {#3}\parens*{\mathrm{d}#4}}
% complex analysis
\newcommand{\conj}[1]{\overline{#1}}
\providecommand{\Re}{}\renewcommand{\Re}[1]{{\operatorname{Re}{\parens*{#1}}}}
\providecommand{\Im}{}\renewcommand{\Im}[1]{{\operatorname{Im}{\parens*{#1}}}}
\newcommand*{\Arg}{\operatorname{Arg}}
\newcommand*{\Log}{\operatorname{Log}}
% Laplace transform
\newcommand{\LPLC}[1]{\operatorname{\mathcal{L}}\parens*{#1}}
\newcommand{\ILPLC}[1]{\operatorname{\mathcal{L}}^{-1}\parens*{#1}}
% Discrete Fourier Transform
\newcommand{\DFT}[1]{\mathrm{DFT}\parens*{#1}}
% Z transform
\newcommand{\ZTrans}[1]{\operatorname{\mathcal{Z}}\parens*{#1}}
\newcommand{\IZTrans}[1]{\operatorname{\mathcal{Z}}^{-1}\parens*{#1}}
% linear algebra
\newcommand{\bm}[1]{{\boldsymbol{#1}}}
\newcommand{\matEntry}[3]{#1\bracks*{#2}\bracks*{#3}}
\newcommand{\matPart}[5]{\matEntry{#1}{#2:#3}{#4:#5}}
\newcommand{\diag}[1]{\operatorname{diag}\parens*{#1}}
\newcommand{\tr}[1]{\operatorname{tr}{\parens*{#1}}}
\newcommand{\inprod}[2]{\left\langle#1,#2\right\rangle}
\newcommand{\HadamardProd}{\odot}
\newcommand{\HadamardDiv}{\oslash}
\newcommand{\Span}[1]{\operatorname{span}\bracks*{#1}}
\newcommand{\Ker}[1]{\operatorname{Ker}\parens*{#1}}
\newcommand{\rank}[1]{\operatorname{rank}\parens*{#1}}
% vector
% unit vector
\newcommand{\vix}{\bm{i}_x}
\newcommand{\viy}{\bm{i}_y}
\newcommand{\viz}{\bm{i}_z}
% probability theory
\newcommand{\PDF}[2]{\operatorname{PDF}\bracks*{#1,\;#2}}
\newcommand{\Ber}[1]{\operatorname{Ber}\parens*{#1}}
\newcommand{\Beta}[2]{\operatorname{Beta}\parens*{#1,#2}}
\newcommand{\ExpDist}[1]{\operatorname{ExpDist}\parens*{#1}}
\newcommand{\ErlangDist}[2]{\operatorname{ErlangDist}\parens*{#1,#2}}
\newcommand{\PoissonDist}[1]{\operatorname{PoissonDist}\parens*{#1}}
\newcommand{\GammaDist}[2]{\operatorname{Gamma}\parens*{#1,#2}}
\newcommand{\cind}[2]{\ind{#1\left| #2\right.}} % conditional indicator function
\providecommand{\Pr}{}\renewcommand{\Pr}[1]{\operatorname{Pr}\parens*{#1}}
\DeclarePairedDelimiterX{\cPrParens}[2]{(}{)}{#1\,\delimsize\vert\,#2}
\newcommand{\cPr}[2]{\operatorname{Pr}\cPrParens{#1}{#2}}
\newcommand{\E}[2]{\operatorname{E}_{#1}\bracks*{#2}}
\newcommand{\cE}[3]{\E{#1}{\left.#2\right|#3}}
\newcommand{\Var}[2]{\operatorname{Var}_{#1}\bracks*{#2}}
\newcommand{\Cov}[2]{\operatorname{Cov}\bracks*{#1,#2}}
\newcommand{\CovMat}[1]{\operatorname{Cov}\bracks*{#1}}
% graph theory
\newcommand{\neighborhood}{\mathcal{N}}
% programming
\newcommand{\plpl}{\mathrel{++}}
\newcommand{\pleq}{\mathrel{+}=}
\newcommand{\asteq}{\mathrel{*}=}
\]
はじめに
先日、面白い記事を見つけた。二重数(下記ページでは「双対数」と呼ばれているが、Wikipediaでは「二重数」)を用いると、初等的な関数($e^x,\sin x,\cos x,\log x,\dots$)の加減乗除と合成関数で作られた関数の微分係数を機械的に計算するプログラムを比較的簡単に実装できるという話。
双対数を利用した自動微分についてのメモ
数学的な妥当性の説明が簡単に述べられているが、私の知識不足故か、素直に納得できないところがあったので、自分が気になった箇所について考えてみた。以下それについて述べる。
紹介されている数式の導出
$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$の導出
関数$f: x \in G \subseteq \mathbb{C} \mapsto f(x) \in \mathbb{C}$は$a_0 \in G$を中心に冪級数展開可能であるとする。$a,b \in \mathbb{C}$とし、$a$は収束領域に入っているものとする。
$$
\begin{aligned}
f(a + b\varepsilon) &= \sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(a + b\varepsilon – a_0)^k \\
&= f(a_0) + \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0)(a + b\varepsilon – a_0)^k \\
&= f(a_0) + \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0) \sum_{l=0}^k \binom{k}{l}(a-a_0)^{k-l}(b\varepsilon)^l \\
&= f(a_0) + \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0) \left[(a-a_0)^k + b\varepsilon k(a-a_0)^{k-1}\right] \\
&= \sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(a-a_0)^k + b\varepsilon\sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0)k(a-a_0)^{k-1} \\
&= f(a) + b\varepsilon\left.\left(\frac{\mathrm{d}}{\mathrm{d}x}\sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(x-a_0)^k\right)\right|_{x=a} \\
&= f(a) + b\varepsilon f'(a)
\end{aligned}
$$
$f(\bm{a} + \varepsilon\bm{p}) = f(\bm{a}) + \bm{p}^\top \nabla f(a)$ の導出
$f: \bm{x} \in G \subseteq \realNumbers^n \mapsto f(\bm{x}) \in \mathbb{C}$は$\bm{a}_0$を中心として冪級数展開可能であるとする。このとき$f$は無限回微分可能であり、Youngの定理より$\partial/\partial x_i$と$\partial/\partial x_j$が可換であることに注意する。$\bm{a}, \bm{p} \in \realNumbers$とし、$\bm{a}$は収束領域に入っているものとする。
$$
\begin{aligned}
f(\bm{a} + \varepsilon\bm{p}) &= f(\bm{a}_0 + (\bm{a} – \bm{a}_0 + \varepsilon\bm{p})) \\
&= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0 + \varepsilon\bm{p})^\top\nabla\right]^k (f, \bm{a}_0) \\
&= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla + \varepsilon\bm{p}^\top\nabla\right]^k (f, \bm{a}_0) \\
&= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left\{\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k + k\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^{k-1}\varepsilon\bm{p}^\top\nabla\right\} (f, \bm{a}_0) \\
&= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k (f, \bm{a}_0) \\
&\phantom{=} + \left\{(\varepsilon\bm{p}^\top\nabla)\sum_{k=1}^\infty\frac{1}{(k-1)!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^{k-1}\right\} (f, \bm{a}_0) \\
&= f(\bm{a}) + (\varepsilon\bm{p}^\top\nabla)\left(\sum_{k=0}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k f, \bm{a}_0\right) \\
&= f(\bm{a}) + (\varepsilon\bm{p}^\top\nabla)\left(g, \bm{a}_0\right) \quad \text{where} \quad g: \bm{x} \mapsto f(\bm{x} + (\bm{a}-\bm{a}_0)) \\
&= f(\bm{a}) + \varepsilon\bm{p}^\top\nabla (f, \bm{a})
\end{aligned}
$$
計算機での実装を意識
計算機で先述の冪級数展開を計算するわけにはいかない。実装上は、まず二重数クラスを定義し、$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$を初等的な関数($\sqrt x, e^x, \sin x, \cos x, \tan x, \log x,\dots$)について実装する。
双対数を利用した自動微分についてのメモの解説にあるように、$f + f’\varepsilon, g + g’\varepsilon$型の二重数同士の四則演算が好都合な結果をもたらすので、$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$を実装した関数同士の四則演算で構成されたユーザー定義関数$h$については、引数に$a + \varepsilon$を渡すだけで自動的に$h(a) + h'(a)$が計算される。
Juliaでの実装
Juliaで実装したコードをGistで公開している: Automatic differentiation using Dual Number
投稿者: motchy
An embedded software and FPGA engineer for measuring instrument.
motchy のすべての投稿を表示