2017-08-12から1日間の記事一覧

UCB1アルゴリズム（多腕バンディットの例）

「これからの強化学習（2016 編牧野貴樹）」p10〜不確かな時は楽観的にという発想で楽観的初期値法が提案されたが、これには反例がある。そこで、すべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少…