ubnt-intrepid's blog

書いてあることがブログの内容です

深層カルマンフィルタ (5)

前回は状態空間モデルにおける変分下限を導出した。 この関数をパラメータ  \phi について微分可能にするために必要な認識モデル  q への制約を考えることが今回の目標である。

いよいよ深層学習っぽい話になると期待している。

続きを読む

深層カルマンフィルタ (4)

…さて、ここからが本題。 同じ著者による新しい論文がアップロードされていたので、こちらも適宜参照しながら読み進めていく。

[1609.09869] Structured Inference Networks for Nonlinear State Space Models

続きを読む

深層カルマンフィルタ (3)

今回は変分自己符号化器 (VAE) における確率勾配変分ベイズ (SGVB) の説明。 なお、SGVB 自体の説明は本家の論文、および以下のものを参考にしたのでそちらも参照されたい。 正直、下の資料さえあれば今回の内容は飛ばしても良い気もするが、一応まとめておく。

続きを読む

深層カルマンフィルタ (2)

昨日の続き。

と言いつつ、昨日の内容についてはおろかその他もろもろの理解が不十分だったことに気づいたため、そのあたりを復習しつつ読み進めてる。 そのため、本題に入る前に大幅に脱線するので注意されたい(自然消滅しないよう頑張ります)。

続きを読む

深層カルマンフィルタ (1)

文献: [1511.05121] Deep Kalman Filters の感想 + 学習メモ。 流し読みしてみた感じそこまで難しいことはしてなさそうだったので、RNN の勉強がてら読んでみてる。

参考文献

深層カルマンフィルタ関連

その他参考にしたもの

関連ありそうで面白そうなもの(適当に選出)

概要

時系列データのモデリング機械学習(およびシステム同定など多くの分野)において重要な課題であり、多くのモデルが提案されている。それ自体膨大でありここですべてを網羅するのは困難であるため、ここでは文献中で取り上げられているものについて軽くまとめてみた。

  • 隠れマルコフモデル (hidden Markov model; HMM)
    観測系列の背後に離散的な値を取る潜在変数を仮定したモデル。 潜在変数の系列はマルコフ連鎖から生成される。

  • カルマンフィルター (Kalman filter; KF)
    線形システムにおいて、ノイズを伴う雑音から状態を推定するための無限インパルス応答フィルターのひとつ。 正確には、 KF という用語が指しているのはモデルではない(KF で用いられる対象の動的システムがモデル)。 古くから用いられてきたモデルであるが、線形性および雑音の正規性など前提条件が多いことが問題になる。 非線形システムへの適用を考慮し幾つかのバリエーションが存在する (EKF, UKF)。

  • 動的ベイジアンネットワーク (dymamic bayesian network; DBN) (訳はこれでいいのか不明)
    HMM, KF などを一般化したグラフィカルモデル。HMM や KF は DBN の特殊な場合として導出することが可能。 一般に複雑な状態遷移確率を設定した場合の学習則における各種値を解析的に求めるのは難しく、 モンテカルロ法や変分近似などを用いた近似計算が併用される。パーティクルフィルタやその他諸々を参照されたい。

  • 再帰ニューラルネットワーク (recurrent neural network; RNN)
    再帰的な構造を持つニューラルネットワーク(適当)。 NN の出力を確率とみなせば確率分布の近似にも用いることができる([1411.7610] Learning Stochastic Recurrent Networks など) 本文献では学習時において(変分)事後分布  q_{\phi} を近似するのに用いている

本論文は、上のモデルのうち非線形システムの同定を、カルマンフィルタで用いられている正規性の仮定などをうまく使って頑張る話。 観測と入力との間に複雑な非線形を持つような時系列データに対する生成モデルの学習における(深層学習を用いた)統一的な枠組みを与えている感じ。 結果が非線形システムとして与えられる点も制御・強化学習との組み合わせがきれいに出来そうで好印象。

...疲れたのでまずはここまで


(追記: 2016-10-15 03:04) 内容の重複するしている箇所を削除

セミマルコフ決定過程の勉強メモ (2)

前回の続き。 といっても書く気が失せつつあるので一気に準マルコフ決定過程の説明にはいる。

マルコフ決定過程

マルコフ決定過程 (semi-Markov decision process; SMDP) とは、簡単に言えば自己遷移における滞在時間 (sojourn time) を考慮したマルコフ決定過程である(文献では semi-Markov process と書いている)。 準マルコフ過程はマルコフ再生過程 (Markov renewal process) と呼ばれているらしい(参考: Markov renewal process - Wikipedia)。

SMDP は組  \langle \mathbf{X}, \mathbf{A}, P, \rho, F \rangle で定義される。ここで各要素の定義は以下の通り。

  •  \mathbf{X} : 状態の有限集合(または可算集合
  •  \mathbf{A} : 行動の有限集合
  •  P : \mathbf{X} \times \mathbf{A} \times \mathbf{X} \to [0,1] : 状態遷移確率
  •  \rho: \mathbf{X} \times \mathbf{A} \to \mathbb{R}_+ : 報酬率 (reward rate)
  •  F: \mathbf{X} \times \mathbf{X} \times \mathbf{A} \times [0,\infty) \to [0,1] : 滞在時間の確率分布関数

通常のマルコフ決定過程との違いは「報酬が時間単位で与えられる」こと、および「滞在時間の確率分布を任意に設定することができる」ことである。  P_{xy}(a) = \Pr(x_{n+1}=y \mid x_n=x, a_n=a) は、行動  a を取ったときの 状態  x から y \neq x への状態遷移確率であり、基本的には MDP と同じものである。

滞在時間の確率分布

SMDP を特徴づけているのが次に示す滞在時間 (sojourn time) の確率分布

{\displaystyle
  F_{xy}(\tau \mid a) = \Pr(t_{n+1} \leq t_n + \tau \mid x_n = x, x_{n+1}=y, a_n = a)
}

であり、これは状態が  x_n=x に行動  a を伴い遷移したあと、  x_{n+1}=y に遷移するまでの滞在時間が  \tau 以下である確率を意味する。

特に  F \tau微分可能であれば、 \tauの条件付き確率密度関数  f_{xy}(\tau \mid a) を用いて

 {\displaystyle F_{xy}(\tau \mid a) = \int_{0}^{\tau} f_{xy}(\tau' \mid a) d\tau'}

と表すことができる。

マルコフ決定過程との関係

上の SMDP は、(連続時間における)マルコフ決定過程の一般化になっている。具体的には、

 {\displaystyle
  F_{xy}(\tau \mid a) = 1 - e^{- k_x \tau}
}

指数分布 (exponential distribution) で表されるとき、準マルコフ決定過程連続時間マルコフ決定過程 (Continuous-time Markov decision process; CTMDP) と呼ばれる。

補足

 t_{n+1} - t_n = \tau_{n+1} と定義し、 (x_n, \tau_n) を(拡大された状態空間における)状態と解釈すれば、状態遷移確率として次のように書くこともできる。

{\displaystyle
  \Pr(x_{n+1}=y, \tau_{n+1} \leq \tau \mid x_n = x, a_n = a) = P_{xy}(a) F_{xy}(\tau \mid a)
}

...飽きたので今日はここまで

http://ls4-www.cs.tu-dortmund.de/download/buchholz/Slides/CTMDP_V1.1.pdf

セミマルコフ決定過程の勉強メモ

ここ数ヶ月ぐらい調子が悪い状態が続いていてろくに文章も書けないでいたのだが、急に元気が出てきたので冷めないうちにメモ。 早く回復しないかなぁ…

はじめに

マルコフ過程 (Markov process) および マルコフ連鎖 (Markov chain) は基本的な確率過程の一つであり、 その扱いやすさからそこらかしこの理論に応用されている、あまりにも有名な確率過程である。 そのマルコフ過程(正確にはマルコフ連鎖)に対し、行動と(その行動を計画する動機を与える)報酬、またはコストを付与したモデルがマルコフ決定過程 (Markov decision process; MDP) である。 この確率過程は、離散的な状態・行動を取る確率過程の制御を考える上で最も基本的なものであり、強化学習などでの応用が特に有名である。

マルコフ過程は、自身の状態への滞在時間 (sojourn time) の確率分布が指数分布に限られるという制約がある。 しかし、この制約を満たさないような確率過程も幾つか存在する。 例えば、ある車がデパートなどの拠点に駐車してから再び出発するまでの滞在時間は明らかにその車の利用者(主婦など)の個性・生活様式に依存し、ある特定の時間にピークが立つような分布になる場合が多い。 そのような確率過程に対しマルコフ性を適用するのは、直感的にも強引であると言える。

そのような状況を考慮した拡張がマルコフ過程 (semi-Markov process) であり、 準マルコフ過程に行動と報酬を組み合わせたモデルがマルコフ決定過程 (semi-Markov decision process; SMDP) である。

滞在時間分布の考え方によって準マルコフ過程はいくつかのバリエーションが存在するが、今回はその中でも最もかんたんなものである(と個人的には思う) 「(連続時間)マルコフ連鎖に滞在時間分布  p(\tau|s) を付与したもの」を考えていきたい。

内容(予定)

文献:

マルコフ過程、SMDPについては上の文献を参考にする。この分野のまとまった文献は(サーベイ能力の低さも相まって)あまり見つからないので、もう少しわかりやすそうな物があったら切り替えるかも… あと、記法・専門用語のぶれは適当な可能性があるので注意されたい。

ここまで書いて疲れたので今日はここまで。 できれば最後まで気力が持ってくれるといいけど…