深層カルマンフィルタ (5)
前回は状態空間モデルにおける変分下限を導出した。 この関数をパラメータ について微分可能にするために必要な認識モデル への制約を考えることが今回の目標である。
いよいよ深層学習っぽい話になると期待している。
確率勾配変分ベイズ法の適用
さて、状態空間モデルの変分下限を再掲する。
まず、第二項以降のKL情報量を解析的に求めるために分解された各 が正規分布であると仮定する。
ここで および はパラメータ を持つニューラルネットワークであるとする。 このように仮定すると、 VAE のときと同様に を次のように と無関係な確率変数の関数で表すことができる。
これらを代入すると、変分下限の各項は次のように求めることができる。
- 第一項
- 第二項
- 第三項
ただし、 は次のようにおいた。
以上の結果をまとめると、変分下限は次のような で微分可能な形にすることができる。
これで目的関数の勾配を求めることができるようになったので、あとは の具体的なネットワーク構造を定めてあげればアルゴリズムを導出できる。
まとめ
文献ではこのあと , の具体的なネットワーク構造などを変化させて比較実験を行っているが、そこまでまとめるのは骨が折れそうだったのでこの辺でこの話は終わり。