セミマルコフ決定過程の勉強メモ (2)
前回の続き。 といっても書く気が失せつつあるので一気に準マルコフ決定過程の説明にはいる。
準マルコフ決定過程
準マルコフ決定過程 (semi-Markov decision process; SMDP) とは、簡単に言えば自己遷移における滞在時間 (sojourn time) を考慮したマルコフ決定過程である(文献では semi-Markov process と書いている)。 準マルコフ過程はマルコフ再生過程 (Markov renewal process) と呼ばれているらしい(参考: Markov renewal process - Wikipedia)。
SMDP は組 で定義される。ここで各要素の定義は以下の通り。
- : 状態の有限集合(または可算集合)
- : 行動の有限集合
- : 状態遷移確率
- : 報酬率 (reward rate)
- : 滞在時間の確率分布関数
通常のマルコフ決定過程との違いは「報酬が時間単位で与えられる」こと、および「滞在時間の確率分布を任意に設定することができる」ことである。 は、行動 を取ったときの 状態 から への状態遷移確率であり、基本的には MDP と同じものである。
滞在時間の確率分布
SMDP を特徴づけているのが次に示す滞在時間 (sojourn time) の確率分布
であり、これは状態が に行動 を伴い遷移したあと、 に遷移するまでの滞在時間が 以下である確率を意味する。
特に が で微分可能であれば、の条件付き確率密度関数 を用いて
と表すことができる。
マルコフ決定過程との関係
上の SMDP は、(連続時間における)マルコフ決定過程の一般化になっている。具体的には、
と指数分布 (exponential distribution) で表されるとき、準マルコフ決定過程は連続時間マルコフ決定過程 (Continuous-time Markov decision process; CTMDP) と呼ばれる。
補足
と定義し、 を(拡大された状態空間における)状態と解釈すれば、状態遷移確率として次のように書くこともできる。
...飽きたので今日はここまで
http://ls4-www.cs.tu-dortmund.de/download/buchholz/Slides/CTMDP_V1.1.pdf