本站目录
本站目录

本站包含作者原创的关于人工智能的理论,算法等博客,目前包括:强化学习,深度学习,机器学习,线性代数,概率论,数... » 阅读全文

一封来自读者的信
一封来自读者的信

收到一位读者的来信,字里行间都看到了当年的自己,中间有一些问题觉得很多人可能都有,所以在他同意的情况下,我把邮件部分贴出来,希望能帮助更多的人。

【强化学习】2.1 k臂赌博机(k-armed bandits)问题
【强化学习】2.1 k臂赌博机(k-armed bandits)问题

我们面对的选择包含 $k$ 个选项,或者 $k$ 种可选的行为,每一个选择或者行为都对应了一个奖励信号(rewarding signal,忘记了回到前面看看) 每种选择对应的奖励信号是随机的,但是都来自固定的分布,当然来自不同选择的奖励信号服从的分布都不同,但是不会随时间改变,比如,$k$ 种可选的行为中 $f_1$ 表示第一种行为的奖励信号的随机分布

【强化学习】2.0 多臂赌博机
【强化学习】2.0 多臂赌博机

强化学习与其他学习算法最大的不同在于训练信息,我们熟知的监督学习,无论从简单的线性回归,到复杂的深度学习,所有这些监督学习用到的训练信息都是Instructing(指导,讲授)的,也就是说训练信息中包含明确的行为指导,比如对于一张输入图片判断是否有人脸,标记好的训练数据会明确的对结果进行校正——是否有人脸

【强化学习】1.6 本章总结、强化学习历史简述
【强化学习】1.6 本章总结、强化学习历史简述

强化学习就是一种通过计算方式来理解和进行目标导向学习的方法。其直接表现是通过agent和环境的交互进行学习,而不需要对环境做任何限制或者需要复杂的环境模型,从本书作者来看,强化学习是第一个研究agent在和环境交互的时候产生的问题计算化的领域,通过研究和环境的交互,达到长期的目标

【Julia】Julia环境搭建(Mac,Windows,Linux)
【Julia】Julia环境搭建(Mac,Windows,Linux)

上文我们说到Julia是一种适合数据科学的语言,那么今天我们就研究一下怎么安装Julia,以及完成一套IDE的搭建,很多人,尤其是写程序有一段时间,但是时间又不长的同学经常会纠结各种问题,比如为啥大牛都用VIM,是不是要学会VIM才能继续进步

【强化学习】 1.5 强化学习的一个扩展举例
【强化学习】 1.5 强化学习的一个扩展举例

今天我们来讲一个很有趣的例子,英文名字叫"Tic-Tac-Toe" 中文名字有翻译成“井字棋”或者什么的,我们这里为了方便就称之为“井字棋”,叫井字棋的原因是因为其棋盘是个“井”字形的,玩法简单,但是这个玩的过程可以使用强化学习的方法来学习,这个简单的棋可以让我们从各个细节审视强化学习的特点,有点,缺点,以及一些小技巧。

【强化学习】 1.4.1 强化学习与优化方法
【强化学习】 1.4.1 强化学习与优化方法

优化方法是机器学习的一个关键组成部分,大部分监督学习和部分非监督学习都要依靠优化方法找到模型的参数,强化学习中也会使用优化方法中的一些算法来使agent获得更多的reward signal,而强化学习或者优化方法在进行过程中有些说法会让人感到迷惑。