谭升
非主流人工智能科学家 我和外面那些妖艳的货不一样

博客

【强化学习】 1.5 强化学习的一个扩展举例 0

【强化学习】 1.5 强化学习的一个扩展举例

今天我们来讲一个很有趣的例子,英文名字叫”Tic-Tac-Toe” 中文名字有翻译成“井字棋”或者什么的,我们这里为了方便就称之为“井字棋”,叫井字棋的原因是因为其棋盘是个“井”字形的,玩法简单,但是这个玩的过程可以使用强化学习的方法来学习,这个简单的棋可以让我们从各个细节审视强化学习的特点,有点,缺点,以及一些小技巧。

0

【强化学习】 1.4.1 强化学习与优化方法

优化方法是机器学习的一个关键组成部分,大部分监督学习和部分非监督学习都要依靠优化方法找到模型的参数,强化学习中也会使用优化方法中的一些算法来使agent获得更多的reward signal,而强化学习或者优化方法在进行过程中有些说法会让人感到迷惑。

0

【Julia】Julia编程语言介绍

Julia语言是MIT的几个科学家,觉得Matlab还有Python不太适合自己的行业,所以自己搞出来的一种编程语言,和另外几百中编程语言一样,其有独特的受众,那就是 —— 数据科学。Julia是小众的,其诞生以来的基本目标就是,能像C语言编写的程序一样快,但是又要有Ruby一样的动态性。Julia主要的目标用户是数据科学家,统计学习,机器学习从业者等。

0

【强化学习】 1.4.0 “进化方法”和 “决策梯度方法” 概论

进化方法是我在学习“强化学习”这本书之前认为的在人工智能中必然要有的一个部分,但是本书给了我一盆冷水,本书作者认为进化算法对强化学习的作用不太明显,或者说缺点更多,不适合用作强化学习的方法。
但是我认为AI如果能达成,一定是模拟人或者动物的智慧形成过程的,即使进化方法不是学习技能(learn skills in individual lifetime)的主要方法,但是其对智慧的长期形成一定有非常重要影响,不能因为进化方法不适合强化学习的某些任务就彻底否定他,相反我们要注意他们的结合。

0

【强化学习】1-2 强化学习举例

这几个例子都是实际自然界或者生活的例子,并不是RL的具体应用,所以不要理解错了,我们通过观察自然,观察生物智能的形成和遗传,是我们了解智能的有效方法,个人愚见,没准这也是唯一突破当前理解障碍的方法,生物通过数万年的演化,遗传,庞大的种群保证了其有大量的样本,来完成筛选和淘汰,每个个体的基因,神经系统,数量大到可能无法想象。所以如果连这些都没考虑过,没深入研究过,应该是对问题没有深刻理解的。

0

【强化学习】1-1-3 强化学习基本框架

我不知道怎么翻译agent这个词,所以就一直用英文了,代理,或者特工都不太合适,而且我总能想到Agent Hunter。。agent我们已经用了好多次了,到现在都不知道是什么,是算法,还是算法和其他的什么的合集,就像模型一样,可能用了很久都不知道所谓模型,架构到底是什么,而我们在后面会用详细的例子来形容agent是什么。

0

【强化学习】1-1-2 “探索”(Exploration)还是“ 利用”(Exploitation)都要“面向目标”(Goal-Direct)

在强化学习中会遇到一个伴随一生的问题,这个问题其实也出现在我们的生活中,也会遇到这种问题,当你遇到一个问题,一个你以前已经遇到过的问题,你有两种选择,第一种,按照以前的方法(其中之一)来完成这件事(Exploitation);或者,你可以尝试另一种方法,一种全新的方法(Exploration);前者可以获得稳定的效果,但是不一定是最优的,后者可能会得到更优的方法,但是也可能得到一个不如以前方法的效果。

试录了几节线性代数视频课程,欢迎大家支持,
点击试看
点击购买更多内容

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!