2017-08-01から1ヶ月間の記事一覧

UCB1アルゴリズム（多腕バンディットの例）

「これからの強化学習（2016 編牧野貴樹）」p10〜不確かな時は楽観的にという発想で楽観的初期値法が提案されたが、これには反例がある。そこで、すべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少…

「これからの強化学習（2016 編牧野貴樹）」のp9〜報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢…