\[
    % general purpose
    \newcommand{\ctext}[1]{\raise0.2ex\hbox{\textcircled{\scriptsize{#1}}}}
    % mathematics
      % general purpose
      \DeclarePairedDelimiterX{\parens}[1]{\lparen}{\rparen}{#1}
      \DeclarePairedDelimiterX{\braces}[1]{\lbrace}{\rbrace}{#1}
      \DeclarePairedDelimiterX{\bracks}[1]{\lbrack}{\rbrack}{#1}
      \DeclarePairedDelimiterX{\verts}[1]{|}{|}{#1}
      \DeclarePairedDelimiterX{\Verts}[1]{\|}{\|}{#1}
      \newcommand{\as}{{\quad\textrm{as}\quad}}
      \newcommand{\st}{{\textrm{ s.t. }}}
      \DeclarePairedDelimiterX{\setComprehension}[2]{\lbrace}{\rbrace}{#1\,\delimsize\vert\,#2}
      \newcommand{\naturalNumbers}{\mathbb{N}}
      \newcommand{\integers}{\mathbb{Z}}
      \newcommand{\rationalNumbers}{\mathbb{Q}}
      \newcommand{\realNumbers}{\mathbb{R}}
      \newcommand{\complexNumbers}{\mathbb{C}}
      \newcommand{\field}{\mathbb{F}}
      \newcommand{\func}[2]{{#1}\parens*{#2}}
      \newcommand*{\argmax}{\operatorname*{arg~max}}
      \newcommand*{\argmin}{\operatorname*{arg~min}}
      % set theory
      \newcommand{\range}[2]{\braces*{#1,\dotsc,#2}}
      \providecommand{\complement}{}\renewcommand{\complement}{\mathrm{c}}
      \newcommand{\ind}[2]{\mathbbm{1}_{#1}\parens*{#2}}
      \newcommand{\indII}[1]{\mathbbm{1}\braces*{#1}}
      % number theory
      \newcommand{\abs}[1]{\verts*{#1}}
      \newcommand{\combi}[2]{{_{#1}\mathrm{C}_{#2}}}
      \newcommand{\perm}[2]{{_{#1}\mathrm{P}_{#2}}}
      \newcommand{\GaloisField}[1]{\mathrm{GF}\parens*{#1}}
      % real analysis
      \newcommand{\NapierE}{\mathrm{e}}
      \newcommand{\sgn}[1]{\operatorname{sgn}\parens*{#1}}
      \newcommand*{\rect}{\operatorname{rect}}
      \newcommand{\cl}[1]{\operatorname{cl}#1}
      \newcommand{\Img}[1]{\operatorname{Img}\parens*{#1}}
      \newcommand{\dom}[1]{\operatorname{dom}\parens*{#1}}
      \newcommand{\norm}[1]{\Verts*{#1}}
      \newcommand{\floor}[1]{\left\lfloor#1\right\rfloor}
      \newcommand{\ceil}[1]{\left\lceil#1\right\rceil}
      \newcommand{\expo}[1]{\exp\parens*{#1}}
      \newcommand{\sinc}{\operatorname{sinc}}
      \newcommand{\nsinc}{\operatorname{nsinc}}
      \newcommand{\GammaFunc}[1]{\Gamma\parens*{#1}}
      \newcommand*{\erf}{\operatorname{erf}}
          % inverse trigonometric functions
          \newcommand{\asin}[1]{\operatorname{Sin}^{-1}{#1}}
          \newcommand{\acos}[1]{\operatorname{Cos}^{-1}{#1}}
          \newcommand{\atan}[1]{\operatorname{{Tan}^{-1}}{#1}}
          \newcommand{\atanEx}[2]{\atan{\parens*{#1,#2}}}
          % convolution
          \newcommand{\cycConv}[2]{{#1}\underset{\text{cyc}}{*}{#2}}
          % derivative
          \newcommand{\deriv}[3]{\frac{\operatorname{d}^{#3}#1}{\operatorname{d}{#2}^{#3}}}
          \newcommand{\derivLong}[3]{\frac{\operatorname{d}^{#3}}{\operatorname{d}{#2}^{#3}}#1}
          \newcommand{\partDeriv}[3]{\frac{\operatorname{\partial}^{#3}#1}{\operatorname{\partial}{#2}^{#3}}}
          \newcommand{\partDerivLong}[3]{\frac{\operatorname{\partial}^{#3}}{\operatorname{\partial}{#2}^{#3}}#1}
          \newcommand{\partDerivIIHetero}[3]{\frac{\operatorname{\partial}^2#1}{\partial#2\operatorname{\partial}#3}}
          \newcommand{\partDerivIIHeteroLong}[3]{{\frac{\operatorname{\partial}^2}{\partial#2\operatorname{\partial}#3}#1}}
          % integral
          \newcommand{\integrate}[5]{\int_{#1}^{#2}{#3}{\mathrm{d}^{#4}}#5}
          \newcommand{\LebInteg}[4]{\int_{#1} {#2} {#3}\parens*{\mathrm{d}#4}}
      % complex analysis
      \newcommand{\conj}[1]{\overline{#1}}
      \providecommand{\Re}{}\renewcommand{\Re}[1]{{\operatorname{Re}{\parens*{#1}}}}
      \providecommand{\Im}{}\renewcommand{\Im}[1]{{\operatorname{Im}{\parens*{#1}}}}
      \newcommand{\Arg}{\operatorname{Arg}}
      \newcommand{\Log}{\operatorname{Log}}
          % Laplace transform
          \newcommand{\LPLC}[1]{\operatorname{\mathcal{L}}\parens*{#1}}
          \newcommand{\ILPLC}[1]{\operatorname{\mathcal{L}}^{-1}\parens*{#1}}
          % Discrete Fourier Transform
          \newcommand{\DFT}[1]{\mathrm{DFT}\parens*{#1}}
          % Z transform
          \newcommand{\ZTrans}[1]{\operatorname{\mathcal{Z}}\parens*{#1}}
          \newcommand{\IZTrans}[1]{\operatorname{\mathcal{Z}}^{-1}\parens*{#1}}
      % linear algebra
      \newcommand{\bm}[1]{{\boldsymbol{#1}}}
      \newcommand{\matEntry}[3]{#1\bracks*{#2}\bracks*{#3}}
      \newcommand{\matPart}[5]{\matEntry{#1}{#2:#3}{#4:#5}}
      \newcommand{\diag}[1]{\operatorname{diag}\parens*{#1}}
      \newcommand{\tr}[1]{\operatorname{tr}{\parens*{#1}}}
      \newcommand{\inprod}[2]{\left\langle#1,#2\right\rangle}
      \newcommand{\HadamardProd}{\odot}
      \newcommand{\HadamardDiv}{\oslash}
      \newcommand{\Span}[1]{\operatorname{span}\bracks*{#1}}
      \newcommand{\Ker}[1]{\operatorname{Ker}\parens*{#1}}
      \newcommand{\rank}[1]{\operatorname{rank}\parens*{#1}}
        % vector
        % unit vector
        \newcommand{\vix}{\bm{i}_x}
        \newcommand{\viy}{\bm{i}_y}
        \newcommand{\viz}{\bm{i}_z}
      % graph theory
      \newcommand{\neighborhood}{\mathcal{N}}
    % probability theory
    \newcommand{\PDF}[2]{\operatorname{PDF}\bracks*{#1,\;#2}}
    \newcommand{\Ber}[1]{\operatorname{Ber}\parens*{#1}}
    \newcommand{\Beta}[2]{\operatorname{Beta}\parens*{#1,#2}}
    \newcommand{\ExpDist}[1]{\operatorname{ExpDist}\parens*{#1}}
    \newcommand{\ErlangDist}[2]{\operatorname{ErlangDist}\parens*{#1,#2}}
    \newcommand{\PoissonDist}[1]{\operatorname{PoissonDist}\parens*{#1}}
    \newcommand{\GammaDist}[2]{\operatorname{Gamma}\parens*{#1,#2}}
    \newcommand{\cind}[2]{\ind{#1\left| #2\right.}}	% conditional indicator function
    \providecommand{\Pr}{}\renewcommand{\Pr}[1]{\operatorname{Pr}\parens*{#1}}
    \DeclarePairedDelimiterX{\cPrParens}[2]{(}{)}{#1\,\delimsize\vert\,#2}
    \newcommand{\cPr}[2]{\operatorname{Pr}\cPrParens{#1}{#2}}
    \newcommand{\E}[2]{\operatorname{E}_{#1}\bracks*{#2}}
    \newcommand{\cE}[3]{\E{#1}{\left.#2\right|#3}}
    \newcommand{\Var}[2]{\operatorname{Var}_{#1}\bracks*{#2}}
    \newcommand{\Cov}[2]{\operatorname{Cov}\bracks*{#1,#2}}
    \newcommand{\CovMat}[1]{\operatorname{Cov}\bracks*{#1}}
    % signal processing
      % Discrete Time Fourier Transform
      \newcommand{\DTFT}[1]{\mathrm{DTFT}\parens*{#1}}
      \newcommand{\IDTFT}[1]{\mathrm{IDTFT}\parens*{#1}}
    % computer science
      % programming
      \newcommand{\plpl}{\mathrel{++}}
      \newcommand{\pleq}{\mathrel{+}=}
      \newcommand{\asteq}{\mathrel{*}=}
    \]
はじめに
先日、面白い記事を見つけた。二重数(下記ページでは「双対数」と呼ばれているが、Wikipediaでは「二重数」)を用いると、初等的な関数($e^x,\sin x,\cos x,\log x,\dots$)の加減乗除と合成関数で作られた関数の微分係数を機械的に計算するプログラムを比較的簡単に実装できるという話。
双対数を利用した自動微分についてのメモ
数学的な妥当性の説明が簡単に述べられているが、私の知識不足故か、素直に納得できないところがあったので、自分が気になった箇所について考えてみた。以下それについて述べる。
紹介されている数式の導出
$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$の導出
関数$f: x \in G \subseteq \mathbb{C} \mapsto f(x) \in \mathbb{C}$は$a_0 \in G$を中心に冪級数展開可能であるとする。$a,b \in \mathbb{C}$とし、$a$は収束領域に入っているものとする。
$$
\begin{aligned}
    f(a + b\varepsilon) &= \sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(a + b\varepsilon – a_0)^k \\
    &= f(a_0) + \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0)(a + b\varepsilon – a_0)^k \\
    &= f(a_0) + \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0) \sum_{l=0}^k \binom{k}{l}(a-a_0)^{k-l}(b\varepsilon)^l \\
    &= f(a_0) +  \sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0) \left[(a-a_0)^k + b\varepsilon k(a-a_0)^{k-1}\right] \\
    &= \sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(a-a_0)^k + b\varepsilon\sum_{k=1}^\infty \frac{1}{k!}f^{(k)}(a_0)k(a-a_0)^{k-1} \\
    &= f(a) + b\varepsilon\left.\left(\frac{\mathrm{d}}{\mathrm{d}x}\sum_{k=0}^\infty \frac{1}{k!}f^{(k)}(a_0)(x-a_0)^k\right)\right|_{x=a} \\
    &= f(a) + b\varepsilon f'(a)
\end{aligned}
$$
$f(\bm{a} + \varepsilon\bm{p}) = f(\bm{a}) + \bm{p}^\top \nabla f(a)$ の導出
$f: \bm{x} \in G \subseteq \realNumbers^n \mapsto f(\bm{x}) \in \mathbb{C}$は$\bm{a}_0$を中心として冪級数展開可能であるとする。このとき$f$は無限回微分可能であり、Youngの定理より$\partial/\partial x_i$と$\partial/\partial x_j$が可換であることに注意する。$\bm{a}, \bm{p} \in \realNumbers$とし、$\bm{a}$は収束領域に入っているものとする。
$$
\begin{aligned}
    f(\bm{a} + \varepsilon\bm{p}) &= f(\bm{a}_0 + (\bm{a} – \bm{a}_0 + \varepsilon\bm{p})) \\
    &= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0 + \varepsilon\bm{p})^\top\nabla\right]^k (f, \bm{a}_0) \\
    &= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla + \varepsilon\bm{p}^\top\nabla\right]^k (f, \bm{a}_0) \\
    &= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left\{\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k + k\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^{k-1}\varepsilon\bm{p}^\top\nabla\right\} (f, \bm{a}_0) \\
    &= f(\bm{a}_0) + \sum_{k=1}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k (f, \bm{a}_0) \\
    &\phantom{=} + \left\{(\varepsilon\bm{p}^\top\nabla)\sum_{k=1}^\infty\frac{1}{(k-1)!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^{k-1}\right\} (f, \bm{a}_0) \\
    &= f(\bm{a}) + (\varepsilon\bm{p}^\top\nabla)\left(\sum_{k=0}^\infty\frac{1}{k!}\left[(\bm{a} – \bm{a}_0)^\top\nabla\right]^k f, \bm{a}_0\right) \\
    &= f(\bm{a}) + (\varepsilon\bm{p}^\top\nabla)\left(g, \bm{a}_0\right) \quad \text{where} \quad g: \bm{x} \mapsto f(\bm{x} + (\bm{a}-\bm{a}_0)) \\
    &= f(\bm{a}) + \varepsilon\bm{p}^\top\nabla (f, \bm{a})
\end{aligned}
$$
計算機での実装を意識
計算機で先述の冪級数展開を計算するわけにはいかない。実装上は、まず二重数クラスを定義し、$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$を初等的な関数($\sqrt x, e^x, \sin x, \cos x, \tan x, \log x,\dots$)について実装する。
双対数を利用した自動微分についてのメモの解説にあるように、$f + f’\varepsilon, g + g’\varepsilon$型の二重数同士の四則演算が好都合な結果をもたらすので、$f(a + b\varepsilon) = f(a) + b\varepsilon f'(a)$を実装した関数同士の四則演算で構成されたユーザー定義関数$h$については、引数に$a + \varepsilon$を渡すだけで自動的に$h(a) + h'(a)$が計算される。
Juliaでの実装
Juliaで実装したコードをGistで公開している: Automatic differentiation using Dual Number