【强化学习】1.1.1 强化学习、监督学习和非监督学习

Abstract: 本文主要介绍强化学习，监督学习，非监督学习之间的不同。
Keywords: Supervised Learning，Unsupervised Learning，Reinforcement Learning

Machine Learning（机器学习）

上文我们曾提到强化学习是机器学习的一种，而机器学习的定义是什么我也不记得了，而可以肯定的是下面这三类算法或者三个learning都属于机器学习，机器学习是个更大的概念：

监督学习
非监督学习
强化学习

监督学习是最常见，也是当前比较火爆的领域，你要是不懂个CNN，神经网络的都不好意思是说自己是做研发的，这些算法都是监督学习。
非监督学习更注重通过算法来找到一些为标记的数据的背后的关系，比如常见的聚类算法。

强化学习，最形象的过程就是学下棋，目标就是赢棋，至于如何走每一步，这就是算法要解决的问题了，不管你怎么折腾，目标明确，就是要赢棋，尽量不输。

关于机器学习的相关知识强烈推荐，参考文献2的这本书，很详细和严谨。后面如果有时间，我也会接着写这本书的博客。

下面我们介绍下RL对于监督学习和非监督学习的主要区别。

Reinforcement Learning v.s. Supervised Learning（强化学习和监督学习）

首先我们要介绍一个概念，knowledge，这个单词是中学学的，表示知识，对于这两类算法，可以理解为在建立模型之前已知的所有条件，这些条件包括问题类型，已知的对于此类问题有效的方法，已知数据等等，所有我们知道的，与之相关的都是knowledge，而在这些knowledge中，RL和SL(监督学习的简称)的一个最最最显著的不同就是数据，SL的每一条数据都有明确的label，也就是模型应该对这条数据的反应，而RL没有。这就产生了巨大的差别，RL每次对input的action是不知道对错的，也不会产生什么loss或者残差，而监督学习可以，而且可以用数字精确衡量，而RL最多也就是自己估计一个好坏程度，摸着石头过河。

没错，监督学习，是有家教的好孩子，每一步都有指导方针，每天都有纠错，改错，进步，没什么随机性。而RL就是个野生的，一学期没人管，期末考试没考好，回家被揍一顿，类似于这种效果。

你可能说，监督学习里也有随机啊，随机梯度下降，放心，那是因为愚蠢的人类目前没有找到直接一步到位的优化方法，而这种方法应该是存在的，随机过程只是优化方法无奈的一种选择，而监督学习的每一步都是有准确衡量的，错了多少，对了多少都是明确的。这就是和RL的最大区别之一。

监督学习通过extrapolate，generalize，最后得到一个尽可能高准确率的分类结果（或者叫做response）
监督学习没有环境这种说法，所以其学习的就是不是环境和acition之间的interaction。

如果你一定要说interaction是损失函数算出来的数值，这里我觉得也可以，但是似乎有些怪异，比如一个baby走路，爸爸妈妈的教法应该是，站起来，别摔倒，能走多远走多远，而如果要使用损失函数，就有点类似于告诉这个小baby，你每一步必须走21.286cm，多了或少了都要有“损失”哦，损失函数更像机器，RL更像人
。
RL的另一个特点是，他学习的最终目的是对所有situation都有正确并且及时的反应，不能对于一个situation没有反应或者自己错乱了，这都是不允许的。
RL从他之前的experience中产生action这个也是SL没有的，因为SL没有经验，所有信息都在模型本身里面，没有什么记忆可以谈。

Reinforcement Learning v.s. Unsupervised Learning （强化学习和非监督学习）

有人说RL不是监督学习，那就非监督学习喽，其实他们也有很大的不同，所以非监督学习并不是监督学习在机器学习领域内的补集。

非监督学习的主要目的，就是找到无任何标记的数据的背后的隐含的关系。所以没有对错输赢这种书法，更像是听天由命。

为出现的结构数据对于RL是有用的，但是更多的数据并不能解决RL的问题，但是更多的数据对于SL或者UL往往能产生质的飞越。

RL不是监督学习，也不是非监督学习，RL的目标很单纯:

MAXIMUM REWARDING SINGAL

Conclusion

本文主要介绍强化学习和监督学习，非监督学习的区别，并说明，机器学习不是简单的分成监督非监督学习两种。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.
Nasrabadi N M. Pattern recognition and machine learning[J]. Journal of electronic imaging, 2007, 16(4): 049901.

原文来自：https://face2ai.com/RL-RSAB-1-1-1-Reinforcement-Learning转载标明出处