【强化学习】2.2 行为评价方法(Action-value Methods)

本文介绍解决k-臂赌博机的第一种简单的naive的方法,注意区分两个重要的概念,评价方法(value function)产生的值(value)和奖励信号(reward signal)之间的区别。