Action Value Estimator Implementaion for MultiArmed Bandit

Comparision of performance of different action value estimators like Epsilon Greedy Upper Confidence Bound Softmax

on a multiarmed Bandit

Name		Name	Last commit message	Last commit date
Latest commit History 21 Commits
plots		plots
Bandit_2017.pdf		Bandit_2017.pdf
README.md		README.md
bandits.py		bandits.py
optimality_and_rewards.png		optimality_and_rewards.png
plot_rewards_optimality.m		plot_rewards_optimality.m
plot_rewards_optimality.m~		plot_rewards_optimality.m~
sofmatx_optimal.png		sofmatx_optimal.png
sofmatx_rewards.png		sofmatx_rewards.png
ucb_optimality.png		ucb_optimality.png
ucb_rewards.png		ucb_rewards.png

Provide feedback