2017-07-31から1日間の記事一覧

報酬の期待値を誤って見積もる2種類の例

「これからの強化学習 2016（編牧野貴樹）」のp6〜多腕バンディット問題（腕はAとB）を解く例初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける（greedy）。腕Aの真の報酬確率は0.6…