Abstract: 本文介绍第一种强化学习方法——行为评价方法(Action-value Methods),非常简单但是可以通过这个简单的算法来感受下强化学习的难点和问题解决的思路
Keywords: 强化学习, k臂赌博机, 多臂赌博机, 利用, 探索, 行为评价方法,样本均值方法, $\varepsilon$-greedy方法

阅读全文 »

Abstract: 在强化学习中,平衡Exploitation和Exploration将会是一个从始至终的问题,我们本章用简单的k臂赌博机问题来从具体的每一步来分析和研究这个问题,本节先介绍下问题的描述和大概的解决思路,为本章后面的问题解决做好铺垫
Keywords: 强化学习,k臂赌博机,多臂赌博机,利用,探索,Exploitation,Exploration

阅读全文 »

Abstract: 本文介绍强化学习的一个具体例子,Tic-Tac-Toe,作为一种下棋类游戏,Tic-Tac-Toe规则简单,而且问题规模小,容易进行深入分析,了解强化学习在具体例子中的执行过程,进而了解强化学习的性质和特点。
Keywords: 强化学习,强化学习举例,Tic-Tac-Toe

阅读全文 »
0%