【强化学习】2.1 k臂赌博机(k-armed bandits)问题
【强化学习】2.1 k臂赌博机(k-armed bandits)问题

我们面对的选择包含 $k$ 个选项,或者 $k$ 种可选的行为,每一个选择或者行为都对应了一个奖励信号(rewarding signal,忘记了回到前面看看) 每种选择对应的奖励信号是随机的,但是都来自固定的分布,当然来自不同选择的奖励信号服从的分布都不同,但是不会随时间改变,比如,$k$ 种可选的行为中 $f_1$ 表示第一种行为的奖励信号的随机分布

【强化学习】2.0 多臂赌博机
【强化学习】2.0 多臂赌博机

强化学习与其他学习算法最大的不同在于训练信息,我们熟知的监督学习,无论从简单的线性回归,到复杂的深度学习,所有这些监督学习用到的训练信息都是Instructing(指导,讲授)的,也就是说训练信息中包含明确的行为指导,比如对于一张输入图片判断是否有人脸,标记好的训练数据会明确的对结果进行校正——是否有人脸

【强化学习】1.6 本章总结、强化学习历史简述
【强化学习】1.6 本章总结、强化学习历史简述

强化学习就是一种通过计算方式来理解和进行目标导向学习的方法。其直接表现是通过agent和环境的交互进行学习,而不需要对环境做任何限制或者需要复杂的环境模型,从本书作者来看,强化学习是第一个研究agent在和环境交互的时候产生的问题计算化的领域,通过研究和环境的交互,达到长期的目标