谭升
非主流人工智能科学家 我和外面那些妖艳的货不一样

Category: 强化学习入门

【强化学习】2.1 k臂赌博机(k-armed bandits)问题 0

【强化学习】2.1 k臂赌博机(k-armed bandits)问题

我们面对的选择包含 $k$ 个选项,或者 $k$ 种可选的行为,每一个选择或者行为都对应了一个奖励信号(rewarding signal,忘记了回到前面看看) 每种选择对应的奖励信号是随机的,但是都来自固定的分布,当然来自不同选择的奖励信号服从的分布都不同,但是不会随时间改变,比如,$k$ 种可选的行为中 $f_1$ 表示第一种行为的奖励信号的随机分布

【强化学习】2.0 多臂赌博机 0

【强化学习】2.0 多臂赌博机

强化学习与其他学习算法最大的不同在于训练信息,我们熟知的监督学习,无论从简单的线性回归,到复杂的深度学习,所有这些监督学习用到的训练信息都是Instructing(指导,讲授)的,也就是说训练信息中包含明确的行为指导,比如对于一张输入图片判断是否有人脸,标记好的训练数据会明确的对结果进行校正——是否有人脸

0

【强化学习】1.6 本章总结、强化学习历史简述

强化学习就是一种通过计算方式来理解和进行目标导向学习的方法。其直接表现是通过agent和环境的交互进行学习,而不需要对环境做任何限制或者需要复杂的环境模型,从本书作者来看,强化学习是第一个研究agent在和环境交互的时候产生的问题计算化的领域,通过研究和环境的交互,达到长期的目标

【强化学习】 1.5 强化学习的一个扩展举例 0

【强化学习】 1.5 强化学习的一个扩展举例

今天我们来讲一个很有趣的例子,英文名字叫”Tic-Tac-Toe” 中文名字有翻译成“井字棋”或者什么的,我们这里为了方便就称之为“井字棋”,叫井字棋的原因是因为其棋盘是个“井”字形的,玩法简单,但是这个玩的过程可以使用强化学习的方法来学习,这个简单的棋可以让我们从各个细节审视强化学习的特点,有点,缺点,以及一些小技巧。

0

【强化学习】 1.4.1 强化学习与优化方法

优化方法是机器学习的一个关键组成部分,大部分监督学习和部分非监督学习都要依靠优化方法找到模型的参数,强化学习中也会使用优化方法中的一些算法来使agent获得更多的reward signal,而强化学习或者优化方法在进行过程中有些说法会让人感到迷惑。

0

【强化学习】 1.4.0 “进化方法”和 “决策梯度方法” 概论

进化方法是我在学习“强化学习”这本书之前认为的在人工智能中必然要有的一个部分,但是本书给了我一盆冷水,本书作者认为进化算法对强化学习的作用不太明显,或者说缺点更多,不适合用作强化学习的方法。
但是我认为AI如果能达成,一定是模拟人或者动物的智慧形成过程的,即使进化方法不是学习技能(learn skills in individual lifetime)的主要方法,但是其对智慧的长期形成一定有非常重要影响,不能因为进化方法不适合强化学习的某些任务就彻底否定他,相反我们要注意他们的结合。

0

【强化学习】1-2 强化学习举例

这几个例子都是实际自然界或者生活的例子,并不是RL的具体应用,所以不要理解错了,我们通过观察自然,观察生物智能的形成和遗传,是我们了解智能的有效方法,个人愚见,没准这也是唯一突破当前理解障碍的方法,生物通过数万年的演化,遗传,庞大的种群保证了其有大量的样本,来完成筛选和淘汰,每个个体的基因,神经系统,数量大到可能无法想象。所以如果连这些都没考虑过,没深入研究过,应该是对问题没有深刻理解的。

试录了几节线性代数视频课程,欢迎大家支持,
点击试看
点击购买更多内容

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!