2017-07-31から1日間の記事一覧
「これからの強化学習 2016(編 牧野貴樹)」のp6〜 多腕バンディット問題(腕はAとB)を解く例 初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける(greedy)。 腕Aの真の報酬確率は0.6…
「これからの強化学習 2016(編 牧野貴樹)」のp6〜 多腕バンディット問題(腕はAとB)を解く例 初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける(greedy)。 腕Aの真の報酬確率は0.6…