「これからの強化学習（2016　編　牧野貴樹）」のp9〜

報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢を選び続けるうちに間違いが修正される。したがって、

期待値に不確実性がある時は、その不確実性の範囲内で大きい期待値を仮定すべき

ということ。

楽観的初期値法（多腕バンディットの例）

学習前にあらかじめ、各腕から報酬の最大値をK回得ていたことを仮定しておく

腕iのプレイ回数： $N_{i}$
腕iから実際に得た報酬和： $R_{N_{i}}$
腕iの報酬の最大値： $r_{max}$

$\mu'_{i} = \frac{R_{N_{i}} + Kr_{max}}{N_{i} + K}$

こうしておくと、どの腕も初めは真の報酬期待値よりも大きい値だと見積もっていることになる。そこからいつも最大期待値の腕を選び続けていれば、その腕の期待値が真の値に近づいた時に他の（楽観的期待値の）腕より期待値が小さければ選択が変わっていくので、最終的に真の期待値が最大の腕を選び続けるだろう、という考えに基づく。

しかし、反例がある。（その反例が知りたい）

より洗練された方法として、Upper Confidence Bound（UCB）アルゴリズムがあり、これは多腕バンディット問題の解法としてよく知られているらしい。

メモ帳

これは私のメモ帳です。

不確かな時は楽観的に

楽観的初期値法（多腕バンディットの例）