メモ帳

これは私のメモ帳です。

2017-07-31から1日間の記事一覧

報酬の期待値を誤って見積もる2種類の例

「これからの強化学習 2016(編 牧野貴樹)」のp6〜 多腕バンディット問題(腕はAとB)を解く例 初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける(greedy)。 腕Aの真の報酬確率は0.6…