メモ帳

これは私のメモ帳です。

UCB1アルゴリズム(多腕バンディットの例)

「これからの強化学習(2016 編 牧野貴樹)」p10〜 不確かな時は楽観的にという発想で楽観的初期値法が提案されたが、これには反例がある。そこで、 すべての選択肢に対して必要な探索が行われることを保証しつつ、探索のコストも最適解を間違えるリスクも少…

不確かな時は楽観的に

「これからの強化学習(2016 編 牧野貴樹)」のp9〜 報酬の期待値の2種類の誤りの非対称性から考える。ある選択肢の期待値が小さく見積もられる場合は、それを修正するのは困難である。一方ある選択肢の期待値が大きく見積もられる場合は、その後その選択肢…

報酬の期待値を誤って見積もる2種類の例

「これからの強化学習 2016(編 牧野貴樹)」のp6〜 多腕バンディット問題(腕はAとB)を解く例 初期の一定試行だけランダムに探索し、その結果から各腕の報酬期待値を計算し、それ以降は最適と推定した選択だけを続ける(greedy)。 腕Aの真の報酬確率は0.6…

truffleでtest用RPCを使う

truffleでtest用RPCを使う testrpcのソースコード(github) 使い方の参考サイト testRPCを使うメリット デプロイが一瞬(これでかい) 起動方法 # globalでインストールしてあるなら、どこでも実行できる $ testrpc # 起動すると、この仮想etherネット内で…