谭升的博客

一封来自读者的信

2018-11-24T03:26:33.000Z

Abstract: 一封来自读者的信
Keywords: 计算机视觉，就业，人工智能，深度学习

收到一位读者的来信，字里行间都看到了当年的自己，中间有一些问题觉得很多人可能都有，所以在他同意的情况下，我把邮件部分贴出来，希望能帮助更多的人。

原文：

同学，您好：
很高兴收到的微信咨询，本来想在微信上回复你，但是我觉得还是好好思考一下你的问题然后把这些问题大概总结一下，回复给你可能更准确也更有帮助，另外我觉得有你这些问题的人应该不少，所以，如果你同意我会在博客上公开这封回信和我们的部分聊天记录，当然我会隐藏掉所有您的个人信息。
看我的博客的很多人都是在校的学生，包括一些本科的同学以及硕士博士研究生，其中我感觉硕士居多，很不幸，我个人是没有读过硕士的，所以对大部分硕士课程以及硕士工作没有什么了解，当然我更不能深入了解每个课题组的深入程度。
我收到的询问一般都是一些入门级的同学发给我的，这很正常，入门之前会恐慌迷茫不知所措，所以需要询问；一旦入门了，需要的工作就是调整，深入了，即使是讨论，也不会找我这种江湖野怪，所以我无法了解到那些人，所以本文不适合那些已经入门的人。
下面来回答你的问题：
你首先介绍了一下你目前的情况，985，研一，老师是做机器视觉，机械部分，视觉机器人，困惑是自己不知道选什么方向
实验室别人是做什么的，有人做深度学习，有人做后端，有人做视觉检测
你的问题是你要不要跟着师兄们的脚步还是跟着老师的脚步做机械部分
就业形势，深度学习以后的发展，自己非科班，转机器视觉是因为机械行业不景气。
下面是我个人的对你目前状况的理解，和一些个人的建议，仅供你参考。对于任何问题每个人都有不同看法，有人务实可能选择走保守道路，有人理想，选择走一些理想化的路线，我肯定也会有自己的态度，而对你来说，我的态度对你来说就是一种噪音，或者更准确说，就是误导，所以，你可以多听几个人的建议，综合来看。你听邻居大婶的意见，还不如自己做决定。
985，这个数字是在校学生表示自己身份的象征，在学校其间，能证明我们能力的只有学校好坏，而到了社会能证明我们身份的就是变成，车，房子，衣着等，其实我不认为985就有多好，我也不会看不起三本的学生，因为有些985的学生最后干的事，如果从社会的角度还不如我们村种菜的大爷对社会的贡献大。我们的社会文化导致了我们从出生开始就要被比较那些能看到的东西，身高，长相，小学考第几，初中考第几，上的什么高中什么大学，这些都是挂在表面的东西，而这个现象的结果是导致我们自己也开始只追求外在的东西，所以对于985，我给你的建议是，如果你内心足够强大，可以完全不顾及外在的东西，深入修炼自己的内心（包括对事物的理解，基础知识，比如数学，语言，编程这些基础的知识技术，过程很苦，看不到什么提高，但是我认为是非常有用的）。老师做的自己不喜欢，或者就业形势不好：我知道很多人不知道自己喜欢什么，或者自己喜欢的东西不能被用来谋生（唱歌跳舞什么的），首先我觉得这个问题我之前也遇到过，最求喜欢的还是追求活下来，如果你的爱好不能够支持你的生活，我建议把80%的精力放在你的谋生技能上，也就是说你的谋生技能要在行业平均水平之上，至于做什么，你可以自己找一个自己相关的，又不太讨厌的做，而你真正的爱好，只有你自己知道的那个，你可以用业余的时间来继续，提高水平同时能够体会到快乐。如果你既不知道自己喜欢什么，也不知道做什么事会开心，我觉得你应该继续找到这件事，如果找不到，这会是个悲剧。自己选方向：工作方向，与目前已经掌握的技能相关，且自己能够掌控的，行业我会在后面说。
实验室里的人都在做别的，自己要不要学：不能别人干什么你就觉得那个好，从众可以用来保护自己，但是不能作为自己奋斗目标，每个人的性格和技能基础都不同，所以他们做的事可能不一定适合你，像1中说的，你可以80%的精力用于你以后的事业，20%用于爱好。IT行业的细分很多，也很细，所以找一个自己不太讨厌的其实不难，不要担心这个行业怎么样，关键是你的目标是学一点然后找个公司混日子，还是说把这个干好，如果你能把某项技能掌握的很好的话，找工作谋生一般没问题，当然技术最好是主流或者有一定前景的，传呼机维修这种技术就是一个反面典型（来自郭德纲的段子）。
这和2中的回答一样，不要只看试验是的几个人是做什么的，多在网上看看最新的东西，如果可以，多去Youtube上逛逛是好的，你们村的集市的视野是不如世博会的，找几个自己喜欢的，好好调查一下。导师和师兄在很多人看来就是权威了，当然，实验室环境是，但是这些权威其实没有你看得那么权威，我们从小就喜欢跟随权威，比如有人也把我当成权威，说实话，这些权威包括我就是普通人，而权威的见解就是他们的个人见解，有些很片面，有些甚至就是不对的，所以你不需要100%的跟随他们。
就业形势不好，因为经济不好，宏观经济以及行业环境都不太好，所以我觉得你要做的更应该是提高自己的技能，求值就是个求期望的过程，要为了得到大的期望，你能做的就是提高自己的概率，也就是让自己在专业方面变得更强大一些，而不是找一个行业招人多的，后者想法会让人一直堕落下去。非科班的问题是基础不好，所以你要做得的是补充自己的基础，深度学习（调参）以后没什么发展，这是我说的，我不是权威，但是研究其工作原理会有前途，但是我们目前的应用主要工作是调参，没人会花钱请你去研究模型的数学原理（Google这些公司除外，我说的是中国公司）人工智能未来会是个非常强的方向，但是不一定是深度学习。计算机视觉，机械这些行业都是强应用行业，机械我不懂，但是计算机视觉我觉得应该是好方向，但是目前国内的水平一般，因为计算机视觉的一个主要特征是替代人类，完成重复工作，而我国目前最不缺的就是人，所以计算机视觉的最近几年的招聘情况我不知道，如果计算机视觉的需求量大的话，这是个非常不错的行业，我理解机械也是个非常有前景的行业，只是热度目前不如人工智能类的这些工作。
希望能帮助你，注意，我的这些都是给你提供信息，而不是强烈建议或者指导，没有一个人的思想能指导别人的行为，只是提供信息，希望你多思考，多浏览，
Tony
Nov,24,2018

收到的回信原文：

谭老师，您好
多谢老师抽出时间为我指点迷津，正像老师所说的，我应该首先对自己有个清晰的认识，然后再选择自己的发展方向。
现在的社会是资产财富论能力，然而大学入学时大家都差不多，不同的专业进入社会开始拉开差距，生化环材也正是因为这个原因被称为劝退专业，机械则是屌丝专业，个人觉得这些专业的学生并不比CS EE 差，但是赚不到钱的就得在这个社会的下游，作为机械专业的学生，是不甘心吧，当然也是当初自找的，生化环材机友们和所有人一样爱财，也希望自己和家人以后能过得好点，我想我会转互联网/IT吧，如老师所说，大多数人不知道自己喜欢什么，我也是，就专业方面来说，机器人和应用开发人工智能都挺有好感，但谈不上热衷，大概不是真的喜欢吧，作为生活的一部分，我想我会转互联网，作为爱好追求，我还应该多去了解自己，谢谢老师提点，我以为选择了一个方向就会是生活的全部了，所以害怕决定。
把这个问题公开我觉得挺好的，希望所有有想法的人勇敢一点。

原文地址: https://face2ai.com/Other-a-mail

【杂文】中美人工智能对比（一篇博人关注的软文）

2018-10-12T02:26:34.000Z

Abstract: 中国的人工智能大概率在做什么？一篇哗众取宠，博人关注的软文，数据全部来自网络
Keywords: 人工智能

中美人工智能从业者小调查

我是一个人工智能从业者，之间有过相关创业经历，但是由于接触到的投资机构多为小微型，所以，无法从金融，市场角度分析原因，我今天主要说的是从一个比较可观的角度来看看，我们的人工智能开发人员都在干什么？

写本文的唯一目的就是为了吸引别人关注我的博客或者公众号，这一篇破文章改变不了任何事情，我能做的是保证我的逻辑没问题，数据没问题，至于结论，您爱信就信，不信也无所谓，这对任何人根本没什么任何影响，大概就是这个样子

本文类似于一道证明题，所有环节紧密相扣，如果中间任何一步您觉得不可信，那么后面都不可信，因为前面的基础都是错误的，后面的一系列论证都是错的了。

几个前提

网络是大多数人工智能从业人员获取知识的重要工具，而搜索引擎则起到了至关重要的作用，于是我们提出第一个不证明但是认为是正确的前提(数学中称之为公理，这里我们不这么叫，避免引起歧义)，我们先给这种前提起个名字，叫做 Tony公理 ，以表示这是个非正式的公理:

Tony公理 1：人工智能从业者，开发人员通过搜索引擎来获取相关知识，完成自己的职业技能训练

根据第一个Tony公理继续我们的思考，国内搜索引擎一家独大，也就是百度，我们这里只谈使用量，不考虑任何其他非相关的事。而全球公认使用量最大的搜索引擎我们假定其是Google，所以我们通过这两个网站给出的两个工具来获得我们本文以下的全部数据和依据：

工具 1：Google Trenshttps://trends.google.com/
工具 2：百度指数 https://index.baidu.com

这两个工具都是衡量搜索引擎在某一个事件段内关键词的热度，于是我们接下来用这两个工具来设计我们下面的全部试验。

中美人工智能对比（视觉方向）

~~这个标题如果作为大标题会吸引很多眼球，事实上我决定可以这么做，因为本文的目的就是哗众取宠。~~

对比原理

了解或是不了解人工智能的读者都不用害怕，我下面用最通俗解释告诉你这些关键词都代表了什么。
关键词是你要搜索内容的高度概括，就比如你要买鱼丸粗面，不应该去搜索引擎搜索“蓝球”这个关键词，你搜索什么，代表着你要了解什么。于是我们这里提出第二个 Tony公理

Tony公理 2：关键词代表你想要了解的内容

那么作为一个从业者，我来告诉你几个比较有代表性的关键词(主要面向视觉方向，自然语言等不了解，不做解释)，这几个关键词我会对应到我们平时做饭的过程中。这样大家都能理解:

TensorFlow：是一个开源软件库，用于各种感知和语言理解任务的机器学习。
- TensorFlow 可以理解为一套工具，包括锅碗瓢盆，勺子，铲子，菜刀，等所有工具
梯度下降(Gradient Descent): 这个是目前被大范围使用的一种优化方法(一种基础算法)
损失函数(loss function):这个和上面的梯度下降类似，也是研究的入门知识，虽然入门但是很关键。
- 选择梯度下降和损失函数作为关键词的原因是，他们是研究使用优化方法的基石，类似于加法中的1+1，而优化方法对于人工智能就像是做饭中调料精确的搭配比例，需要不断的调整这些油盐酱醋的比例才能获得最好的味道，不至于太咸，也不会太酸。
Mnist: 一个数据集
- 用于入门卷积神经网络的例子，C++中的hello word，做饭中的番茄炒蛋
AlexNet: 一种相对复杂一些的网络结构
- 用于进一步研究卷积神经网络的例子，难度C++的斐波那契数列，做饭中的炖排骨，而AlexNet相当于给出了你代码和菜谱，你的工作就是运行一下。

Google上的对比 —— 横向对比

中国和美国大家研究上述方向的比例是什么？
我们这里以TensorFlow作为基础指标，其他关键字为其相对的比例，这里的假设是TensorFlow在中美从业者中使用比例近似（比如中国每一百个从业者中有七十个使用tensorflow，美国从业者也应该在七十个左右，如果差的特别离谱，比如美国只有40个，那么本文完全不成立）我们来看中国的关键词热度：

数字代表相对于图表中指定区域和指定时间内最高点的搜索热度。热度最高的字词得 100 分；热度是前者一半的字词得 50 分；没有足够数据的字词得 0 分。

有些看不清，我把最后那几项数据列出来：

月份	梯度下降: (中国)	Mnist: (中国)	TensorFlow: (中国)	AlexNet: (中国)
2017-01	3	2	45	2
2017-02	2	4	58	1
2017-03	2	2	73	1
2017-04	2	2	73	2
2017-05	2	3	65	2
2017-06	1	2	73	1
2017-07	2	2	79	2
2017-08	2	3	78	1
2017-09	1	2	77	2
2017-10	1	2	74	1
2017-11	1	3	90	1
2017-12	3	5	88	1
2018-01	1	4	89	2
2018-02	2	2	56	1
2018-03	3	3	83	2
2018-04	3	2	100	2
2018-05	2	3	94	2
2018-06	3	3	86	1
2018-07	2	3	89	1
2018-08	2	3	89	2
2018-09	2	3	86	1
2018-10	3	4	63	1

接着我们看看美国从业者搜索相关信息的比例：

同样列出最后的数据：

月份	gradient descent: (美国)	loss function: (美国)	Mnist: (美国)	TensorFlow: (美国)	AlexNet: (美国)
2017-01	5	9	3	50	1
2017-02	8	13	4	66	1
2017-03	9	13	5	79	2
2017-04	8	15	5	84	2
2017-05	7	10	4	84	2
2017-06	5	9	4	83	2
2017-07	6	8	3	75	2
2017-08	5	8	3	77	1
2017-09	7	12	4	75	1
2017-10	10	16	5	85	2
2017-11	9	14	7	92	2
2017-12	7	11	5	80	2
2018-01	6	10	4	78	1
2018-02	9	15	5	89	1
2018-03	9	14	5	96	2
2018-04	9	17	6	100	1
2018-05	8	12	5	95	2
2018-06	6	9	4	93	1
2018-07	6	10	4	89	1
2018-08	7	9	3	86	1
2018-09	9	13	5	87	1
2018-10	11	15	5	83	1

根据上面的对比得出一条结论：

美国和中国从业者在使用相同的厨具数量下，美国人比中国人更多人投入研究优化方法，也就是调料的搭配，而在做番茄蛋和炖排骨上，大家的热情差不多。

百度一下，纵向对比中国自己的方向

然后。。对不起各位。。没有然后了，因为

总结

上文逻辑目前来看没有什么问题，只能做横向对比了，纵向对比我们要“立即购买”，这里我就不去深入研究了。如果有不同的看法，可以用任何正确的逻辑来反驳我，这个我是接受的，因为毕竟我不能统计所有关键词，难免会有错误，但是如果从情怀上来说我不爱什么什么的，那我只能跪在地上给大爷认错，我错了。
后面几句牢骚别当真，喜欢的话关注我们的公众号，不过以后不会有这种文章了。

原文地址: https://face2ai.com/other-Something-about-Chinese-AI

【强化学习】2.2 行为评价方法(Action-value Methods)

2018-10-10T14:03:20.000Z

Abstract: 本文介绍第一种强化学习方法——行为评价方法(Action-value Methods)，非常简单但是可以通过这个简单的算法来感受下强化学习的难点和问题解决的思路
Keywords: 强化学习, k臂赌博机, 多臂赌博机, 利用, 探索, 行为评价方法，样本均值方法, $\varepsilon$-greedy方法

行为评价方法(Action-value Methods)

本文介绍解决k-臂赌博机的第一种简单的naive的方法，注意区分两个重要的概念，评价方法(value function)产生的值(value)和奖励信号(reward signal)之间的区别。

评价方法和奖励信号的回顾

注意我们前面介绍的两个概念，相似但是完全不同，就是评价方法(value function)产生的对行为的评价，以及行为执行后的奖励信号(reward signal)。

这里再举个小栗子🌰吧，加入你是个超级富豪，你去街边游戏厅玩一块钱一次的赌博机，当然游戏厅有一排赌博机，假设有 $k$ 个，你随身都带着助理，你的助理是哈佛耶鲁MIT三大名校的统计学博士，你俩去玩赌博机，玩之前，你的助理会告诉你你下一局应该把你的一块钱下注到哪台机器，你肯定要问他他是怎么算出来的，于是，他拿出笔记本电脑，连接到了超级服务器上，用一个超级复杂的公式，评估出了所有赌博机的输赢概率，最后得出，第二台赌博机，赢的概率最大，为90(这个数是博士设计出来的公式的结果)比别的赌博机的对应值都高，所以你心悦诚服的去把你的一块钱压到了二号赌博机。
这个例子，你的博士助理就是一个value function或者说他的那套算法是value function也可以，那个90就是某个行为(选择的某台机器的value值)。
于是你就去赌博了，堵你的一块钱，经过赌博机的一些列运行，果不其然，你赢了两块钱，你很高兴的买了一个冰棍，你和你的博士朋友一起吃了起来 —— 这里面的两块钱就是reward signal。
可见value是和reward signal 完全不同但又息息相关的概念

上面我们应该大概能区分action的value和reward signal了。
我们继续回顾我们上文（点击查看详情）讲到的这个公式：
$$
q_{\ast}(a)\doteq\mathbb{E}[R_t|A_t=a]
$$

公式中 $q_{\ast}(a)$ 是一个函数，表示reward signal的期望，公式中包含了 $R_t$ 为对应的第 $t$ 个过程中的 Reward Signal ，而接着就用
$$
Q_t(a)\approx q_\ast(a)
$$
来定义了个value function：换句话说，我们刚弄了个每一步的reward signal的期望，就被人顺水推舟做了value function，因为value function 总是要和reward signal相关的value变大的时候reward signal一定也要对应的变大或者变小也可以，只要他们之间的变化时按照固定规律进行的，我们就能通过value function来最大化reward signal。
还有一个区别value 和reward signal的办法是value时选择action之前用的，reward是action之后(甚至是多个actions之后)得到的，来自environment的反馈。

一定要注意的就是value function和reward signal之间的关联和相互利用，不要糊涂了，我们的最终目的是最大化reward signal

样本均值(sample-average method)方法

上面已经用reward signal的期望来做value function了，那么我们第一种方法也就这么来了，我们计算 $\text{action}_a$ 在过去所有步骤中出现的时候得到的reward signal平均值，作为$\text{action}_a$ 的value，这就产生了下面这个value function:

$$
Q_t(a)\doteq\frac{\text{a出现的时候reward signal的和}}{\text{a出现的次数}}=\frac{\sum^{t-1}_{i=1}R_i\cdot1_{A_i=a}}{\sum^{t-1}_{i=1}1_{A_i=a}}
$$
这里面唯一不好理解的就是符号 $1_{A_i=a}$ 这里的1不是一个数值，你可以把它理解为一个布尔变量，他不是值，他是个指示变量，当第 $t$ 步骤中 $A_t$ 采用的是a的话，那么这个值$1_{A_t=a}=1$ 否则 $1_{A_t=a}=0$
$R_i$ 就是对应的第 $i$ 步获得的reward signal。所以这个奖励信号就和一个指示函数相乘了，最后求出来当a被使用的时候的reward signal的和了，分母是同样的原理，是一个计数器。
如果你学过数字信号或者模拟信号，你会了解有一个叫做使能信号的东西，$1_{A_t=a}$ 与之类似。
但是这里有除法就要注意如果我们之前一直没有采用过$\text{action}_a$ 那么分母就是0了，所以我们可以硬性规定一下，如果分母为0，那么 $Q_t(a)=0$
根据大数定理，当我们的action使用的足够多的时候，样本的期望就是随机变量的期望，对大数定理不太了解的同学可以参考:大数定理也就是说，当我们步骤足够多的话，action也都被大量使用时，$Q_t(a)$ 收敛于 $q_\ast(a)$ 。
以上只是一种非常简单的value function的设计，有效与否要等到后面的试验，但是从理论上来说，他是可以满足我们的需求的。
那么上面我们就完成value function的设计，接着我们要考虑的就是如何选择 action 了，是 exploitation 和 exploration 呢？

$\varepsilon$-greedy方法

第一种，最传统的办法，选择期望最高的，也就是贪心的选择，对应的 action 就属于 exploitation，使用数学表达这个过程就是在$t$ 步选择$A^{\ast}_{t}$使得 $Q_{t}(A^{\ast}_{t})=\text{max}_aQ_t(a)$ 贪心选择的整体被写作：

$$
A_t\doteq \mathop{\arg\max}_{a} Q_t(a)
$$
上面这个符号 $\mathop{\arg\max}_{a}$ 会在你的人工智能历程中一直跟你纠缠不休，用中文解释就是在所有可行的 $a$ 中，找到一个能使 $Q_t(a)$ 最大的，并返回这个 $a$ ，也就是$A_t$ 每一步都是使用时 $Q_t(a)$ 最大的 $a$。

贪心方法最大的问题就是，他每次都使用前面所有行为中看起来最大收益的行为，但是他无法保证这个行为确实是最好的，比如，有一种行为更好，但是前面的几次都发挥失常，没有得到较好的reward signal，这种情况是完全有可能的，而贪心算法解决不了这个问题。

一种改进就是以一定概率 $\varepsilon$ (相对较小)执行随机选择的行为，选择范围是所有可行的行为，且他们被选择的概率相等,这种随机选择的action就是我们前面提到的exploration，这种方法叫做$\varepsilon$-greedy方法。
这种方法的优点是随着学习的不断增长，所有的行为的被执行次数都是趋近于无穷的，那么这时候可以保证 $Q_t(a)$ 收敛于 $q_\ast(a)$。因为我们执行exploitation的概率是 $1-\varepsilon$ 其数值是接近1的，而exploration的概率$\varepsilon$ 是接近0的，当执行了非常多的过程后$Q_t(a)$ 收敛于 $q_\ast(a)$，此时我们有$1-\varepsilon$ 的比例是执行的贪心过程，那么我们的所有步骤中就有不小于 $1-\varepsilon$ 的比例是选择的最大收益的行为，这种结果将会是相当客观的。
上面这套理论从字面上看起来近乎完美，但是这个收敛是个渐进的保证，换句话说学习次数在现实中不可能趋近于无限，我们的训练次数也是有限的，我们目前还不能根据一个理论上的极限情况来断定在实际执行过程中也获得很好的表现。

总结

本文介绍了value function的设计，以及两种方法来选择action，我们从此篇开始，正式进入强化学习的大门。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址: https://face2ai.com/RL-RSAB-2-2-Action-value-Methods

【Hexo】Hexo下next主题valine强化版本的改造

2018-10-10T07:03:36.000Z

Abstract: 本文介绍Valine评论系统的自定义
Keywords: Hexo，Next，Valine评论系统，Valine邮件

Hexo下next主题valine强化版本的改造

使用Hexo下Next主题会遇到评论设置上的麻烦，好用的被墙了，剩下的都不太好用。但是Next集成了一个valine评论很有改造空间。
我们这里只提供一个改造思路，具体的执行细节我会给出参考网址。

使用valine

按照next或者官方说明，安装是不需要安装什么的，只是要设置下leancloud上的数据段，如果你的文章浏览数据是用leancloud存储的，那么这个过程你应该很了解了，具体的过程可以参考：
1. 官网：https://valine.js.org

hexo-theme-next上的issues:https://github.com/iissnan/hexo-theme-next/pull/1983

第一个Bug

这是基本的，如果你的网页做过大型优化，比如参考过：
https://reuixiy.github.io/优化过next主题的同学会在topx中出现Bug,页面会变成只有title和阅读次数的状态，解决办法是修改themes/next/layout/_third-party/comments/valine.swig中的第一行为:

1	if theme.valine.enable and theme.valine.appid and theme.valine.appkey and page.title !=== '阅读排行'

阅读排行是你topx的page的title根据你的命名适当修改。

增强Valine

Valine的评论系统轻量级，所以功能就那么完善，比如邮件通知，你都找不到评论在哪篇文章，所以我找到了一个增强版的Valine：

赵俊同学的杰作http://www.zhaojun.im/hexo-valine-modify/

赵同学给出了一个后台的强力解决方案，让我们的邮件通知不那么简陋，也能找到评论再哪篇文章了，为了稳妥起见，一下内容为赵俊同学的博客原文摘录：

Hexo 优化 — 支持邮件通知的评论 Valine 增强版

发表于 2018-01-11 | 更新于 2018-10-06 | 分类于 Hexo

简介

此项目是一个对 Valine 评论系统的拓展应用，可增强 Valine 的邮件通知功能。基于 Leancloud 的云引擎与云函数。可以提供邮件 通知站长 和 @ 通知 的功能，而且还支持自定义邮件通知模板。

点击查看演示

注：本项目修改于 panjunwen 的项目 : Valine-Admin，原作者博客: Valine Admin 配置手册, (部分逻辑于功能不同，还请读者不要搞混配置项.)

快速开始

首先需要确保 Valine 的基础功能是正常的，参考 Valine Docs。

然后进入 Leancloud 对应的 Valine 应用中。

点击 云引擎 -> 设置 填写代码库并保存：https://github.com/zhaojun1998/Valine-Admin

切换到部署标签页，分支使用 master，点击部署即可：

配置项

此外，你需要设置云引擎的环境变量以提供必要的信息，点击云引擎的设置页，设置如下信息：

必选参数

SITE_NAME : 网站名称。
SITE_URL : 网站地址, 最后不要加 / 。
SMTP_USER : SMTP 服务用户名，一般为邮箱地址。
SMTP_PASS : SMTP 密码，一般为授权码，而不是邮箱的登陆密码，请自行查询对应邮件服务商的获取方式
SMTP_SERVICE : 邮件服务提供商，支持 QQ、163、126、Gmail、“Yahoo”、…… ，全部支持请参考 : Nodemailer Supported services。
SENDER_NAME : 寄件人名称。

高级配置

更新历史

7.7 兼容 valine v1.2.0-beta 版本对 at 的更改点击查看。
7.1 修复 Web 后台登录安全 bug
6.14 添加自定义邮件服务器功能. 点击查看

升级 FAQ

部署最新代码 :

重启容器:

注: 更新新版本与更改环境变量均需要重启容器后生效。

LeanCloud 休眠策略

免费版的 LeanCloud 容器，是有强制性休眠策略的，不能 24 小时运行：

每天必须休眠 6 个小时
30 分钟内没有外部请求，则休眠。
休眠后如果有新的外部请求实例则马上启动（但激活时此次发送邮件会失败）。

分析了一下上方的策略，如果不想付费的话，最佳使用方案就设置定时器，每天 7 - 23 点每 20 分钟访问一次，这样可以保持每天的绝大多数时间邮件服务是正常的。

附 Linux crontab 定时器代码：

1	/20 7-23 curl https://你配置的域名前缀.leanapp.cn

注 : 此 crontab 不是LeanCloud 后台的定时任务，如果你没有 Linux 机器来配置此定时器，那么可以在此 issues 中回复我，我帮你加上。

如对本项目有意见或建议，欢迎去 Github 提 issues。

希望赵同学的博客不会关闭github也不会删库，这样的结果就是我们的邮件通知会美观很多，而且还附加了评论所在地址，非常方便。
如果使用上述后台设置那么在主题下的配置文件，valine选项中的邮件通知要关掉，不然会收到两份通知：

valine:
  enable: true
  appid: xxxxxx
  appkey: xxxxxxx
  notify: false # mail notifier , https://github.com/xCss/Valine/wiki
  verify: true # Verification code
  placeholder: 无需注册，填写正确的邮箱，评论被回复就有邮件通知了~ # comment box placeholder
  avatar: retro # gravatar style
  guest_info: nick,mail,link # custom comment header
  pageSize: 10 # pagination size
  visitor: false

原文地址: https://face2ai.com/other-Hexo-next-valine-leancloud

【强化学习】2.1 k臂赌博机(k-armed bandits)问题

2018-10-08T14:40:24.000Z

Abstract: 在强化学习中，平衡Exploitation和Exploration将会是一个从始至终的问题，我们本章用简单的k臂赌博机问题来从具体的每一步来分析和研究这个问题，本节先介绍下问题的描述和大概的解决思路，为本章后面的问题解决做好铺垫
Keywords: 强化学习，k臂赌博机，多臂赌博机，利用，探索，Exploitation，Exploration

k臂赌博机（k-armed bandits）问题

赌博机，说到赌博，大家都觉得这是一个非常不好的活动，但是说回来，赌博是催生数理统计和概率的主要动力，具体可以看未完成的系列：数理统计学简史
作为不赌博的好孩子，大部分人对k臂赌博机可能不是很了解，首先我们来介绍一下这种赌博机：

这就是为什么是k臂赌博机，那个臂就是旁边的控制器，通过拉动控制器就能出发机器开关，当出现指定的图案就会有相应的奖励，这是1臂赌博机，如果有多个这种机器放在一排，那么这就是k臂赌博机。

k臂赌博机问题描述

下面我们来从学术的角度描述一下这个问题，描述如下：
我们面对的选择包含 $k$ 个选项，或者 $k$ 种可选的行为，每一个选择或者行为都对应了一个奖励信号(rewarding signal，忘记了回到前面看看) 每种选择对应的奖励信号是随机的，但是都来自固定的分布，当然来自不同选择的奖励信号服从的分布都不同，但是不会随时间改变，比如，$k$ 种可选的行为中 $f_1$ 表示第一种行为的奖励信号的随机分布，其可以不同于 $f_2$ 也就是第二种行为的奖励信号的随机分布，但是为了简化问题，我们目前研究的问题中 $f_1,f_2,\dots,f_k$ 都不随时间变化。
我们的目的是通过每一步观察，选择，执行不同行为来最大化我们的奖励信号，当然这个过程需要长时间，或者是多步以后来观察结果，一次或者两次的观察是没有研究意义的。

k臂赌博机

经过上面的描述，我们就可以把描述和赌博机联系在一起了，首先我们对赌博机进行如下假设：

赌博机出现的结果都是满足某种随机分布的，当然这个可能是赌场老板设定的，也可以是自然产生的
赌场里面有很多赌博机可以供我们选择，如果赌场就一个赌博机，我们就要换一家研究k-armed bandits problem了
赌博机的内的设置不会随时间改变，也就是1中的分布不随时间改变，没有幕后黑手操控比赛

有上面三点假设，我们就可以解释为什么我们本章研究的问题的是k臂赌博机了，我们面对 $k$ 个赌博机，我们的目的是最大化我们的收益，所以我们的做法是选择一个赌博机，然后下注（假定从始至终都不变）启动所有机器，获得结果，观察其他机器的行为，决定下一局是否换别的机器下注，对应上面的问题：

奖励信号 对应 单次赌博收益
可选行为 对应 本次使用哪台机器
每个行为对应的奖励信号的随机分布 对应 每台赌博机出现不同结果的随机分布

所以这就是我们上面描述的问题的生活中的例子，或者说我们可以通过生活中这个例子来得到问题。

上面的例子是赌博机的例子，下面还有一个类似的类比，就是医生看病的例子，医生每天要面对一些列的病人，每个病人用什么样的治疗方案就是一个选择的过程，而每种选择都对应着不同效果，而治疗效果就是奖励信号，当医生面对络绎不绝的病人时，医生的目标就是把奖励信号最大化，也就是最大程度的让更多人康复，这个类比也符合上面我们的问题描述

奖励信号 对应 病人康复程度
可选行为 对应 可选的治疗方案
每个行为对应的奖励信号的随机分布 对应 每种治疗方案对当前患者的效果的随机分布

数学描述

把上面的语言描述转换成数学描述就是如下了：
当前为第 $t$ 次选择(对应赌博中的第 $t$ 局，医生的第 $t$ 个患者), 有 $k$ 中选择，我们在此次选择的行为是： $A_t$ 对应获得的奖励信号是 $R_t$ ，那么对于这一轮选择，假设我们选择了 $a$ 我们获得奖励信号的期望 $q_*$ 就是：
$$
q_{\ast}(a)\doteq\mathbb{E}[R_t|A_t=a]
$$

如果你对 $A_t$ 和 $a$ 搞不清楚，我可以大概说一下，$A_t$ 是一个总称，本轮的所有选择的总称，而 $a$ 是特定的一个行为，所以期望的公式就可以解释的清楚了，因为不同行为对应不同的分布，而我们希望使用期望来衡量这个行为的奖励信号。
如果我们明确知道每一步(局)每个行为(机器)将会出什么结果，那么我们就不需要选择了，直接选最大的那个就好了，所以我们这里假定我们不知道，也许你大概知道期望，但是对结果还是无法确定的（你可以一直观察某个赌博机的结果，利用大数定理通过采样结果来估计原始分布的结果）
这里我们对 $t$ 步的特定行为 $a$ 的评价(前面说的value function中value，和rewarding signal直接相关)的期望进行定义：
$$
Q_t(a)\approx q_*(a)
$$

这样就可以利用我们上面对问题的分析，以及使用前面提到的value function来解决这个问题了

强化学习解决k臂赌博机问题

上面我们应该已经能从整体上掌握k臂赌博机的问题过程了，那么我们接下来就要用我们前面提到的一些概念来解决这个问题了。
如果从我们自身出发，我们希望每一步都能最大化我们的收益（或者叫做奖励信号），我们自身会对所有赌博机都有一个评估，无论是感性的还是理性的，我们都会认为某个或者某几个赌博机获得高回报的可能性大一些，那么我们就有很多种玩法了：

贪婪的我 —— 每次都玩那个我认为回报高的赌博机
任性的我 —— 每次随便玩，就是不选我认为回报高的
会强化学习的我 —— 每贪婪若干次后任性一次（玩自认为回报高的机器几次后，随机玩一次别的机器，看看是否会改变自己前面的观点）

前面我们反复说过两个单词（第一次考托福的时候我还用这两个单词写过作文😜）”exploitation” or “exploration” ，上面1中的贪婪也被称为 “greedy actions” 当你选择这种action的时候，你的action对应的就是”exploitation”；相反，如果我们就是不选我们认为回报高的，也就是2的这种行为，我们称为 “exploration”，如果我们还是想赢点钱，这种行为也不是完全傻瓜的，因为我们可以通过这种行为来纠正我们对每台机器回报高低的期望（有可能你对机器回报高低的判断是错误的，实际上也是这样的），换句话说，每台机器回报高低我们根本就是乱猜，所以1中的贪婪也有可能执迷不悟，而通过偶尔的”2”一下，没准会得到更多的收获，也就是3中给出的做法，会有更多收获。
Exploitation的做法肯定是正确的，但是从长期来看Exploration可能会产生更高的收益(短期来看exploration的收益大概率不如exploitation)，因为exploration很有可能找到比当前执行的action收益更高的其他action。但是具体怎么安排或者说怎么平衡Exploitation和exploration就是我们今后要一直研究的问题了。我们经常会用 “conflict” 来形容Exploitation和Exploration之间的选择。
是Exploitation还是Exploration这个问题理论上是没有通用解的，每一个环境，每一个问题，每一步都是不一样的，也无法确定，对于k臂赌博机问题，目前有一些专用的数学公式可以比较好的平衡Exploitation和Exploration之间的关系，但是这些公式或多或少都对问题的某些方面进行了限制和假设，这就使得这些方法在相似问题的不同环境下可能会失效。在后面章节我们研究的全面的强化学习(Fall Reinforcement Learning Problem, k臂赌博机 问题是简化后的问题)的时候，对应的环境会变得不同，一些假设条件也会不成了，这时候这些方法也会失效。这时候(某些假设不成立的时候)算法对应的收敛性和收敛边界都会失效。
我们目前的研究不关心是否以一种高效，漂亮的（sophisticated）方法来平衡Exploitation和Exploration，而是只要能平衡就行，不管漂不漂亮，高不高效，本章我们就列举几个简单的方法来平衡他们来获得比只 exploitation更好的结果。

总结

在强化学习中，平衡Exploitation和Exploration将会是一个从始至终的问题，我们本章用简单的k臂赌博机问题来从具体的每一步来分析和研究这个问题，从而获得更直观，更详细的理解。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址: https://face2ai.com/RL-RSAB-2-1-A-k-armed-Bandit-Problem

【强化学习】2.0 多臂赌博机

2018-10-07T09:03:13.000Z

Abstract: 本文是第二章“多臂赌博机”的绪论，介绍本章主要内容
Keywords: 强化学习，多臂赌博机

多臂赌博机

强化学习与其他学习算法最大的不同在于训练信息，我们熟知的监督学习，无论从简单的线性回归，到复杂的深度学习，所有这些监督学习用到的训练信息都是Instructing（指导，讲授）的，也就是说训练信息中包含明确的行为指导，比如对于一张输入图片判断是否有人脸，标记好的训练数据会明确的对结果进行校正——是否有人脸，如果有人脸在哪，训练模型偏差会被准确计算，同时通过优化算法逐步减少这个偏差，直到我们设定的阈值后完成训练。
而强化学习的训练信息则不同，强化学习的每一步没有指导信息，而是只有一个“评价”（evaluate），评价这个行为(action)的得分，得分也就是好坏，但是没有正确错误的说法，也没有最好或者最坏的说法。
这种评价机制导致了强化学习需要在学习的过程中加入探索(exploration)，来用trial-and-error的搜索方式得到好的模型。

“指导”型反馈和“评价”型反馈

两种不同的训练信息产生两种不同的反馈模型：

Purely Evaluative Feedback
- 简单的评价型反馈，只是反馈一个值，这个值评价行为的好坏，注意Purely这个修饰，也就是朴素的，简单的评价反馈是只返回一个值，而复杂的评价反馈可能结合别的信息。
Purely Instructive Feedback
- 与评价反馈不同，指导型反馈，直接返回正确的做法，而且是当action完成的一瞬间就能反馈这个信息，当然这个也是purely的版本，不包含复杂的附加信息。

指导型反馈是监督学习的基础,以上两种反馈的区别为：

评价型反馈完全取决于行为（action）
指导型反馈独立于行为（action）

当然这两个反馈也不是水火不容，只要你愿意，他们还是可以结合在一起使用的；1中评价性反馈与行为相关可能很好理解，2中的指导型反馈独立于行为可能不太好理解，我们可以这么理解，如果我们输入的信息是N个类别的数据，那么反馈信息就是当前这条数据的正确分类，而这个分类就是独立于算法做出行为的独立反馈。

本章重点

本章我们主要研究评价型在简化的强化学习上的应用，简化到什么程度？只有一个situation，已经有很多人研究过使用评价型反馈解决这些问题，这种简化可以避免让我们一开始就陷入复杂关系的问题中，而无法看到强化学习的细节，而且这种简化的模型可以让我们清楚的看到evaluative feedback和instruct feedback的不同，以及帮助我们发现如何将他们联合起来的方法。
这种特殊的，无关联的评价性反馈问题，可以有很多具体例子，在本章中，我们用简化的 多臂赌博机(k-armed bandit) 作为研究对象。通过这个问题介绍一些简单的方法。这些方法在后续章节中将会被扩展为能解决 完整强化学习问题 的方法。
本章最后我们会简单的了解一下完整的强化学习问题 以及多臂赌博机之间相互影响的时候的问题 —— 也就是多situation的情况。

总结

可能你对单situation和多situation还不太能区分，或者你可能连多臂赌博机是什么都不知道，但是没关系，我们后面会用一章的时间研究这个赌博机。
感谢您的阅读，请多提宝贵意见

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址: https://face2ai.com/RL-RSAB-2-0-Multi-Armed-Bandits

【Julia】整型和浮点型数字

2018-10-03T10:04:56.000Z

Abstract: 本文介绍Julia语言的整型和浮点型数字的
Keywords:

整型和浮点型数字

整数或者浮点数在编程中被大量使用，由于大部分程序面对的问题都是处理数字计算相关的问题，所以数字的表示变成了代码中最重要的一部分。不论是加减乘除，还是积分微分，在计算机中，都要使用整型和浮点型来完成，至于整型和浮点型计算过程中需要注意的事项，这是在数值分析，数值计算课程中需要考虑的，数值分析课程传送门，整形变量例如 1 浮点型变量例如1.0。
这两个例子中的数字是我们在日常和编码的时候使用的，我们称之为字面值（immediate values，对于翻译成立即数的那些教材，我们不予评价，嘻嘻）。而他们在内存中的二进制形式，被称为原始值（numeric primitives）。
Julia提供了宽泛的原始值类型，和定义在他们之上的一个完整数字计算操作、按位计算操作以及数值函数操作。这些原始值类型都是现在计算机原生支持的，所以Julia可以高效利用计算机的计算资源。Julia也提供了主观定义的计算操作（arbitrary precision arithmetic），这些操作不被硬件支持，在计算过程中速度将会变得比较慢。

整型变量

类型	是否有符号?	所占位数	最小值	最大值
`Int8`	✓	8	-2^7	2^7 - 1
`UInt8`		8	0	2^8 - 1
`Int16`	✓	16	-2^15	2^15 - 1
`UInt16`		16	0	2^16 - 1
`Int32`	✓	32	-2^31	2^31 - 1
`UInt32`		32	0	2^32 - 1
`Int64`	✓	64	-2^63	2^63 - 1
`UInt64`		64	0	2^64 - 1
`Int128`	✓	128	-2^127	2^127 - 1
`UInt128`		128	0	2^128 - 1
`Bool`	N/A	8	`false` (0)	`true` (1)

浮点型变量

类型	精度	所占位数
`Float16`	half	16
`Float32`	single	32
`Float64`	double	64

以上浮点型的三种类型的精度可以点击进入wikipedia查看详情。

整型

在Julia编程中字面值以标准形式表示，比如我们想输入数值1，只需要输入1就可以了，而不需要转换成存储在计算机内存或硬盘中的二进制。
比如在交互模式下：

$ julia               _   _       _ _(_)_     |  Documentation: https://docs.julialang.org  (_)     | (_) (_)    |   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.  | | | | | | |/ _` |  |  | | |_| | | | (_| |  |  Version 1.0.0 (2018-08-08) _/ |\__'_|_|_|\__'_|  |  Official https://julialang.org/ release|__/                   |julia> 11julia> 123123julia>

typeof

typeof的用法和c语言中的 sizeof类似，但是sizeof在c/c++中是操作符，而typeof在Julia这里可能是个函数，这需要我们后面深入的研究确定，我们先画个问号在这。在交互模式下我们来看看我们的整形变量1在Julia中的类型：

julia> typeof(1)Int64julia> typeof(123)Int64julia>

输出结果是Int64，不是Int32的原因是我们的操作系统是64位操作系统，所以基础类型就是64位的了。### Sys.WORD_SIZESys.WORD_SIZE这个内置变量用于指示当前系统是32位还是64位：

julia> Sys.WORD_SIZE64julia>

Int 和 UInt

这两种类型的不同在于是否有符号，数值范围也有区别，具体的可以从上面的表中得出，如果想看当前系统内的Int和UInt对应位数，可以直接在交互模式下输入：

# 32-bit system:julia> IntInt32julia> UIntUInt32# 64-bit system:julia> IntInt64julia> UIntUInt64

32位系统和64位系统对应如上.**注意：Julia大小写敏感，所以uInt和UInt是不同**

julia> uIntERROR: UndefVarError: uInt not definedjulia> UIntERROR: UndefVarError: UInt not definedjulia> UIntUInt64

输入类型

如果我们的系统是32位系统，所以对应的整数默认类型是Int32那么如果整数值超过了32-bit有符号型整数的范围，在C语言中就会发生溢出，但是在Julia中，系统会自动将超过32-bit的数字转换成64-bit形式（C语言中在代码中定义类型，所以输入可能会溢出，但是Julia中不事先定义变量类型，所以可以自主转换）：

# 32-bit or 64-bit system:julia> typeof(3000000000)Int64

所以Julia中不会出现溢出这种风险。

16进制(base 16)

常用的16进制当然也是支持的，16进制以 0x 开头，使用0-9a-f作为每一位字面值的数字，这里的 a-f与A-F是等价的：

julia> 0x10x01julia> typeof(ans)UInt8julia> 0x1230x0123julia> typeof(ans)UInt16julia> 0x12345670x01234567julia> typeof(ans)UInt32julia> 0x123456789abcdef0x0123456789abcdefjulia> typeof(ans)UInt64julia> 0x111122223333444455556666777788880x11112222333344445555666677778888julia> typeof(ans)UInt128

16进制输入的数字最终都会被系统解释为无符号的类型。
这是因为16进制输入一般都不是表示数值，而是一个数字序列。

注意：ans只有在交互模式下可以如此使用

2进制，8进制

16进制是允许的，那么2进制和8进制当然也是可以的：

julia> 0b100x02julia> typeof(ans)UInt8julia> 0o0100x08julia> typeof(ans)UInt8julia> 0x000000000000000011112222333344440x00000000000000001111222233334444julia> typeof(ans)UInt128

二进制的表示方式:0b开头，每一位只能是0-1
二进制的表示方式:0o开头，每一位只能是0-7

与16进制相同2进制和8进制的输入，系统也是按照无符号类型处理的。
处理输入的2进制或者8进制的位数时则是选择能保存该数值的最小位数，开头的0将会被省略（这样可以节约内存空间），如果想保存原始位数，那么使用1开头即可。
如果输入数字不能被UInt128存储下，那么这个字面值不合法。
如果输入的2，8，16进制数字前面有符号，那么将会转换成无符号的对应值存储：

julia> -0x20xfejulia> -0x00020xfffe

`typemin`函数,`typemax`函数

如果想获得某类型的最大最小值，那么就可以使用typemin函数,typemax函数：

julia> (typemin(Int32), typemax(Int32))(-2147483648, 2147483647)julia> for T in [Int8,Int16,Int32,Int64,Int128,UInt8,UInt16,UInt32,UInt64,UInt128]           prIntln("$(lpad(T,7)): [$(typemin(T)),$(typemax(T))]")       end   Int8: [-128,127]  Int16: [-32768,32767]  Int32: [-2147483648,2147483647]  Int64: [-9223372036854775808,9223372036854775807] Int128: [-170141183460469231731687303715884105728,170141183460469231731687303715884105727]  UInt8: [0,255] UInt16: [0,65535] UInt32: [0,4294967295] UInt64: [0,18446744073709551615]UInt128: [0,340282366920938463463374607431768211455]

for是循环控制关键字prIntln()是打印函数还有一些其他的细节，我们还没有学习，具体的用法我们将在后面介绍。**注意：typemin函数,typemax函数只支持已经数值类型**### 溢出特性对于有限位数的数值都会存在溢出的现象，这种现象是由于计算机结构的特性造成的，无法避免，可以当错误看待也可以当特性看待：

julia> x = typemax(Int64)9223372036854775807julia> x + 1-9223372036854775808julia> x + 1 == typemin(Int64)true

这种溢出现象，可以看做是模运算，模运算也是现计算机的重要特性。
在应用中出现溢出是可能的，检测溢出现象也是必须的，或者可以尝试使用更高级的类型BigInt 但是虽然溢出问题可以通过该类型解决，但是效率可能会下降，所以，这里就需要程序员自己平衡了。

除法错误

除法错误的根本原因是除数为0,但是这只是其中一种，或者说，这是错误的根基，但是表现出来有以下几种：

div函数中除数是0
最小的负数（typemin(Int32)）除以-1
取模操作的操作数是0也会出现除法错误：

julia> div(100,0)ERROR: DivideError: Integer division errorStacktrace: [1] div(::Int64, ::Int64) at ./Int.jl:232 [2] top-level scope at none:0julia> div(typemin(Int64),-1)ERROR: DivideError: Integer division errorStacktrace: [1] div(::Int64, ::Int64) at ./Int.jl:232 [2] top-level scope at none:0julia> mod(20,0)ERROR: DivideError: Integer division errorStacktrace: [1] div at ./Int.jl:232 [inlined] [2] fld at ./Int.jl:241 [inlined] [3] mod(::Int64, ::Int64) at ./Int.jl:221 [4] top-level scope at none:0julia> rem(20,0)ERROR: DivideError: Integer division errorStacktrace: [1] rem(::Int64, ::Int64) at ./Int.jl:233 [2] top-level scope at none:0julia>

这里面唯一有问题的就是为什么最小的数字除以-1会出现错误，原因很简单，我们假设我们操作4-bit的有符号数字，那么符号位占一位，我们就有如下表格：

十进制数	符号位+ 二进制绝对值的表示方式	ones’ complement	two’s complement
+7	0111	表示方式不变	表示方式不变
+6	0110	表示方式不变	表示方式不变
+5	0101	表示方式不变	表示方式不变
+4	0100	表示方式不变	表示方式不变
+3	0011	表示方式不变	表示方式不变
+2	0010	表示方式不变	表示方式不变
+1	0001	表示方式不变	表示方式不变
+0	0000	表示方式不变	表示方式不变
-0	1000	1111	(1)0000
-1	1001	1110	1111
-2	1010	1101	1110
-3	1011	1100	1101
-4	1100	1011	1100
-5	1101	1010	1011
-6	1110	1001	1010
-7	1111	1000	1001
-8	超出4个bit所能表达范围	超出4个表达范围	1000

注：要设计硬件区分符号位，比较绝对值大小。无需设计硬件比较大小，但零存在两种表示方法。
较好的解决上述问题
。由于零只有一种表达方式，所以，可以比别的方式多表达一个-8.
(上表来自百度百科：https://baike.baidu.com/item/补码)
由于在操作系统中以补码形式存储有符号数，所以，最小的负数值的绝对值比相应的最大的正数值大1，所以，当他除以-1的时候，结果溢出，故除法抛出错误。

浮点数

整型表示的数字都是整数，现在我们该研究一下小数了，带小数的字面值，用浮点型表示

常用浮点类型

Float64

正常输入不加任何修饰、转化的小数字面值都用 Float64 类型存储

julia> 1.01.0julia> 1.1.0julia> 0.50.5julia> .50.5julia> -1.23-1.23julia> 1e101.0e10julia> 2.5e-40.00025

Float32

以上这些数字以Float64 形式存储，e就是数学中的科学计数法，如果想用单精度浮点数表示，那么就要在数字中加f0 或者如果已经是科学计数法的数字，用f来来替代e，对于单精度双精度不太了解的同学，可以参考：数值分析-浮点数或者google查询更详细的关于浮点数的介绍，Julia中的用法如下：

julia> 0.5f00.5f0julia> typeof(ans)Float32julia> 2.5f-40.00025f0

转化成Float32的方式如下：

julia> Float32(-1.5)-1.5f0julia> typeof(ans)Float32

Float16

Float16当然也是支持的，虽然可能使用不多，但是有时候在要在更小的内存设备上使用一些数字16位类型就派上用场了，但是注意，在计算的时候，16位的浮点数会被补全成32位的Float32进行计算，这是因为硬件上的浮点数加法器，乘法器，一般都是32位或者更高的，16位已经退出历史舞台了

julia> sizeof(Float16(4.))2julia> 2*Float16(4.)Float16(8.0)

16 位的Float16占两个字节，共16位
sizeof() 函数用来计算变量在内存中使用的空间，等效于c/c++ 中的 sizeof()。

下划线 ‘_’

在数字中，下划线在数字中间以分隔符的作用出现，就像我们平时写论文或者写其他比较正式的文章的时候，超过三位的数字，会没三位加逗号，这个逗号在程序里被改成了下划线

julia> 10_000, 0.000_000_005, 0xdead_beef, 0b1011_0010(10000, 5.0e-9, 0xdeadbeef, 0xb2)

0的浮点数

浮点数的0有两种表示方法：

julia> 0.0 == -0.0truejulia> bitstring(0.0)"0000000000000000000000000000000000000000000000000000000000000000"julia> bitstring(-0.0)"1000000000000000000000000000000000000000000000000000000000000000"

正负0相等，但是浮点的二进制形式差一个符号位。
bitstring 函数的作用是将变量在内存中的二进制形式按位形成一个字符串。

特殊的浮点数

有三个特殊的标准浮点值，这三个值在实数轴上没有对应点，可能大家已经猜到了， $\pm \infty$ 还有就是 “not a number”

`Float16`	`Float32`	`Float64`	Name	Description
`Inf16`	`Inf32`	`Inf`	正无穷	大于所有能表示出来的浮点数值
`-Inf16`	`-Inf32`	`-Inf`	负无穷	小于所有能表示出来的浮点数值
`NaN16`	`NaN32`	`NaN`	不是一个数字	结果不等于任何一个浮点数字

上表就是Float16、Float64、Float32 对应的无穷和Nan的表格，这三个非标准浮点数会经常出现在编程中，尤其是有bug的地方。
更多相关内容我们会在后面 “Numeric Comparisons” 中介绍。
IEEE 754 标准规定包含特殊浮点数的计算结果如下：

julia> 1/Inf0.0julia> 1/0Infjulia> -5/0-Infjulia> 0.000001/0Infjulia> 0/0NaNjulia> 500 + InfInfjulia> 500 - Inf-Infjulia> Inf + InfInfjulia> Inf - InfNaNjulia> Inf * InfInfjulia> Inf / InfNaNjulia> 0 * InfNaN

typemin() 和 typemax() 函数可以用于浮点类型，结果如下：

julia> (typemin(Float16),typemax(Float16))(-Inf16, Inf16)julia> (typemin(Float32),typemax(Float32))(-Inf32, Inf32)julia> (typemin(Float64),typemax(Float64))(-Inf, Inf)

机器精度（`eps` 函数）

大多数实数是不能用机器数准确表达的，所以这就涉及到精度问题，本站数值分析主要研究这方面内容，而每种浮点类型的误差已经在其设计时就已经被确定了，当我们要用到相关的准确度的时候，只需要查询语言内置的函数就可以，这属于系统误差，一直都在，如果这个误差影响了程序，那么就要通过数值分析来找办法，eps 函数就是语言内置的查询精度值的函数。

`eps(Float)`

其参数是浮点类型时，结果如下：

julia> eps(Float32)1.1920929f-7julia> eps(Float64)2.220446049250313e-16julia> eps() # same as eps(Float64)2.220446049250313e-16

[ 数值分析-浮点数](https://www.face2ai.com/Math-Numerical-Analysis-0-3-Float/)文中有介绍这个精确度是怎么计算出来的。这个精度的字面定义是浮点数 1.0和与他最近的另一个该类型的浮点数之间的差。#### eps(100.0)eps 函数也能接受浮点数作为参数：

julia> eps(1.0)2.220446049250313e-16julia> eps(1000.)1.1368683772161603e-13julia> eps(1e-27)1.793662034335766e-43julia> eps(0.0)5.0e-324

当eps 函数以浮点数作为输入的时候，结果是输入的浮点数与最接近的他的浮点数之间的差。

`prevfolat()`和`nextfloat()`函数

使用上面eps 函数的结果可以计算出当前浮点数的最近的上一个浮点数和下一个浮点数：

julia> x = 1.25f01.25f0julia> nextfloat(x)1.2500001f0julia> prevfloat(x)1.2499999f0julia> bitstring(prevfloat(x))"00111111100111111111111111111111"julia> bitstring(x)"00111111101000000000000000000000"julia> bitstring(nextfloat(x))"00111111101000000000000000000001"

相邻的浮点数的背后是相邻的二进制机器数，二进制的特性导致了浮点数误差的性质，而我们经常忽视这些误差，这明显是不对的，这么小小的误差就会导致火箭会坠毁。

“近似” 模型

当我们的字面值没有对应的准确浮点表达的时候，我们就要进行近似了 —— 向上取近似还是向下取近似。IEEE 754标准有明确的相关的操作。
RoundNearest对这个过程进行操作，在进阶部分我们会对其过程进行剖析。

背景知识和引用

The definitive guide to floating point arithmetic is the IEEE 754-2008 Standard; however, it is not available for free online.
For a brief but lucid presentation of how floating-point numbers are represented, see John D. Cook’s article on the subject as well as his introduction to some of the issues arising from how this representation differs in behavior from the idealized abstraction of real numbers.
Also recommended is Bruce Dawson’s series of blog posts on floating-point numbers.
For an excellent, in-depth discussion of floating-point numbers and issues of numerical accuracy encountered when computing with them, see David Goldberg’s paper What Every Computer Scientist Should Know About Floating-Point Arithmetic.
For even more extensive documentation of the history of, rationale for, and issues with floating-point numbers, as well as discussion of many other topics in numerical computing, see the collected writings of William Kahan, commonly known as the “Father of Floating-Point”. Of particular interest may be An Interview with the Old Man of Floating-Point.

任意准确度数字

以上我们研究的数字都受到设计时的精度限制，Julia提供一种不限制大小的数字表达方式，换句话说，这种精度是自定义的，和你输入的数字永远一致，听起来更像把数字字符串化，看起来类似，但是这些字符串是可以进行计算的，Julia打包了GMP(GNU Multiple Precision Arithmetic Library)协议和GNU MPER Library 开发出了 BigInt和BigFloat类型，这两个类型可以表示任意精度的整数或浮点数。
parse函数提供了将字符串转化成BigInt和BigFloat类型的一种方式，为什么要用这个函数，因为你没办法用其他数值类型保存任意长度的数字，这样操作，一旦BigInt和BigFloat类型的数字完成定义就可以和任意类型的数字进行计算了，这要归功于Julia的内部类型转换机制（后面进阶部分会介绍）

julia> BigInt(typemax(Int64)) + 19223372036854775808julia> parse(BigInt, "123456789012345678901234567890") + 1123456789012345678901234567891julia> parse(BigFloat, "1.23456789012345678901")1.234567890123456789010000000000000000000000000000000000000000000000000000000004julia> BigFloat(2.0^66) / 32.459565876494606882133333333333333333333333333333333333333333333333333333333344e+19julia> factorial(BigInt(40))815915283247897734345611269596115894272000000000

虽然可以进行BigInt和BigFloat类型和常规类型的数值计算的时候，Julia会自己进行类型转换，但是如果操作中没有BigInt和BigFloat类型则还是会产生溢出，即当计算式中没有BigInt或BigFloat类型Julia不会自动的调整数值到BigInt或BigFloat类型：

julia> x = typemin(Int64)-9223372036854775808julia> x = x - 19223372036854775807julia> typeof(x)Int64julia> y = BigInt(typemin(Int64))-9223372036854775808julia> y = y - 1-9223372036854775809julia> typeof(y)BigInt

常规类型的数字计算还是会溢出。前面提到的近似模型，在BigFloat中将会被改变，其可以被手工指定，利用setprecision 和 setrounding 函数可以进行全局设置。或者如果只想在某个代码块内改变近似模型，则可以使用do 代码块：

julia> setrounding(BigFloat, RoundUp) do           BigFloat(1) + parse(BigFloat, "0.1")       end1.100000000000000000000000000000000000000000000000000000000000000000000000000003julia> setrounding(BigFloat, RoundDown) do           BigFloat(1) + parse(BigFloat, "0.1")       end1.099999999999999999999999999999999999999999999999999999999999999999999999999986julia> setprecision(40) do           BigFloat(1) + parse(BigFloat, "0.1")       end1.1000000000004

数字系数

数值作为系数

在其他编程语言中，数字变量就是一个操作数，当他作为式子的参数的时候，必须要用操作符连接，比如在c++或者python中我们想表达 $y=2x+1$ 这个表达式的时候一定是:

y=2*x+1

但是在Julia中数字参数可以用另一种形式表示，回归到其参数的地位，而不是c++或者python中的操作数的身份，在Julia中，数字参数可以这么写：

julia> x = 33julia> 2x^2 - 3x + 110julia> 1.5x^2 - .5x + 113.0

虽然就差一个操作符号，但是这种系数形式更加贴近原始公式，当然这里交换律不行，不能把数字放到后面，那样就成了一个新的变量了：

julia> x=22julia> y=2x+15julia> y=x2+1ERROR: UndefVarError: x2 not definedStacktrace: [1] top-level scope at none:0julia>

以下形式表示 $2^{2x}$ 而不是 $2^2x$

julia> x=33julia> 2^2x64

这种表达的一个问题就是我们将会对结合顺序产生疑惑，比如：

-2x 表示(-2)x
√2x是表示 (√2)x
2x^3是表示 2*(x^3)

前两个比较好理解，对于幂，系数的结合方式类似于一元操作符，比如 -x^2大家都会理解为 -(x^2) 这里的符号和系数的语法上的解释是一样的

注意：数值系数操作(乘法)优先级高于其他二元操作，比如乘法或者除法：

1 / 2im == -0.5im 而不是0.5im
6 // 2(2 + 1) == 1 // 1 而不是 (6 // 2)*3 = 9

加了括号的表达式也可以作为系数

加了括号的表达式可以作为系数，比如：

julia> (x-1)x6

但是没有加括号的表达式，或者两个操作数都有括号，就不可以这么写了：

julia> (x-1)(x+1)ERROR: MethodError: objects of type Int64 are not callablejulia> x(x+1)ERROR: MethodError: objects of type Int64 are not callable

上面这两种写法报错的原因是，这两种写法和函数的写法撞车了，所以不可能允许这种计算。

上面这两种写法给我们写公式的时候带来了很大的方便，注意不要在系数后面加空格，也不要在括号系数后加空格。

句法争议

上面的参数写法不被其他语言采纳的原因是会造成其他句法混淆，比如十六进制和科学计数法：

十六进制数字 0xff 将会被解释成：参数 0 乘以变量 xff.
浮点数 1e10会被解释成：参数 1 乘以变量 e10， E形式类似
32位浮点数 1.5f22 被解释为：参数1.5 乘以变量f22.

对于上述争端，Julia给出的解释是：

0x被解释为16进制字符，不会被理解成别的
一个数字后面跟了 e 或者 E 将会被解释为浮点数
一个数字后面跟了 f将会被解释为32-bit浮点数，但是F不会被解释为32-bit浮点数，而是按照系数解释

“清零” 和 “归一”

Julia提供了一个函数来产生0，和1，这个作用听起来有点费解，这不就是赋值么？为什么还要函数，因为不同的数值类型对应着不同的0的表示法，比如不同长度的浮点数的0就有很多种，所以一个函数搞定还是方便的：

Function	Description
`zero(x)`	Literal zero of type `x` or type of variable `x`
`one(x)`	Literal one of type `x` or type of variable `x`

其操作结果：

julia> zero(Float32)0.0f0julia> zero(1.0)0.0julia> one(Int32)1julia> one(BigFloat)1.0

Reference

https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/

原文地址: https://face2ai.com/Julia-Lang-4-Integers-and-Floating-PoInt-Numbers

【强化学习】1.6 本章总结、强化学习历史简述

2018-10-02T08:56:30.000Z

Abstract: 强化学习第一章小结
Keywords: 强化学习历史，强化学习总结

本章总结、强化学习历史简述

总结

强化学习就是一种通过计算方式来理解和进行目标导向学习的方法。其直接表现是通过agent和环境的交互进行学习，而不需要对环境做任何限制或者需要复杂的环境模型，从本书作者来看，强化学习是第一个研究agent在和环境交互的时候产生的问题计算化的领域，通过研究和环境的交互，达到长期的目标。
强化学习有一个非常明显的框架，就是agent和环境之间的action、state和reward之间的相互关系。这个框架尝试着从一种简单的方式来反应人工智能问题的基本特点，而这些特点包括：“诱因”（cause）和 “结果”（effect），“不确定”（uncertainty）和 “非决定论”（nondeterminism）以及 “清晰目标的存在性”（existence of explicit goal）。

强化学习历史

强化学习的历史不是很久远，但是由于研究的方向很多，所以没办法把每条只限都列举出来，这里我们主要分成三个方向：

研究 “trial” 和 “error”
- 起源于早期对动物学习的研究
- 早期人工智能的主要方向
- 1980s强化学习复苏的主要动力
优化控制
- 使用 value function 求解
- 使用 dynamic programming 求解
1和2的混合
- 1和2看起来相互独立，而且独立程度很高，但是我们前面说到的井字棋中使用到了“时序差分方法”（temporal-difference method）

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址:https://face2ai.com/RL-RSAB-1-6-Summary-History

【Julia】变量

2018-10-02T01:13:40.000Z

Abstract: 本文介绍Julia变量的相关内容，包括Julia的变量命名，以及命名的惯用法则（命名风格）
Keywords: Julia变量，Julia变量名，Julia命名一般规则

Julia 变量

如果Julia不是你的入门编程语言，那么对于编程语言中的变量应该已经习以为常，在C语言中，变量名对应于一个内存地址（需要声明变量类型）而在高级一些的语言中，比如python，变量名更抽象，他对应于一个值，或者可以理解为它存储了这个值，这个值可以是该语言允许的任何类型（不需要声明变量类型）。
Julia的变量属于后者，不需要声明变量类型，而是可以让你的合法变量名随时存储任何Julia变量类型的值。
如果Julia是你的第一门编程语言，那么你只要知道，变量名存储了一个变量值就可以了。
在交互模式下，我们进行一下操作，比如输入 x=10 后回车，就会输出10这个结果，接着你可以输入指令 x+1 回车，就会显示 10+1 的结果，如下：

# Assign the value 10 to the variable xjulia> x = 1010# Doing math with x's valuejulia> x + 111# Reassign x's valuejulia> x = 1 + 12# You can assign values of other types, like strings of textjulia> x = "Hello World!""Hello World!"

任何编译器解释器都不会关心这个变量叫什么名字，所有变量在解释器面前一视同仁，所以你不用担心你的变量名字不好听而影响程序执行效果。
接着再看几个例子（例子都来自Julia文档）

julia> x = 1.01.0julia> y = -3-3julia> Z = "My string""My string"julia> customary_phrase = "Hello world!""Hello world!"julia> UniversalDeclarationOfHumanRightsStart = "人人生而自由，在尊严和权利上一律平等。""人人生而自由，在尊严和权利上一律平等。"

更厉害的是Julia的变量名不止局限于英文字符的组合，unicode字符通过 UTF-8 编码也可以成为变量，换句话说，希腊字母，中文字符，日文，韩文等这些都可以做变量名，这就厉害了，python 和c/c++ 是不行的：

julia> δ = 0.000011.0e-5julia> 你好地球 = "Hello world""Hello world"julia> 안녕하세요 = "Hello""Hello"

怎么样，可以用中文命名变量名了以后，你会在你的工程中使用中文命名你的变量名么？注意到上面 $\delta$ 的同学们可能在想这个变量在实际中怎么使用呢？好消息，用latex就可以，当然只有部分编辑器或者IDE支持这个功能，Julia REPL 是支持的，上面的 $\delta$ 在Julia REPL的写法就是 \delta-*tab* ，如果你发现那个字符不知道怎么写，比如你看别人的代码中有个 $\zeta$ 不知道怎么写，你只需要在Julia REPL 中输入 ? 然后在后面粘贴那个字符即可。有一些编程语言会为编译器或者编辑器定义一些常量以及函数，这些常量或函数一般不允许用户修改，但是Julia可以，如果你明确知道自己在做什么，那么这个操作可以帮助你的程序更好更符合你想象的方式进行，但是如果你还是个新手，建议不要随意修改内置常量或函数，因为你很有可能忘记自己修改过这个常量或函数，而在别的部分再次当做原始功能使用，就会造成很隐蔽的bug。

julia> pi = 33julia> pi3julia> sqrt = 44

但是如果这个常量或函数先被使用，而你在之后尝试重新定义或者修改，那么Julia就会抛出错误：

julia> piπ = 3.1415926535897...julia> pi = 3ERROR: cannot assign variable MathConstants.pi from module Mainjulia> sqrt(100)10.0julia> sqrt = 4ERROR: cannot assign variable Base.sqrt from module Main

Julia 变量命名规则

变量名的命名规则：

变量名以字母 A-Z or a-z，下划线，或者Unicode中大于00A0的部分 开头（更过详细的Unicode参考4）
像 + 这类操作符也是可以用作标识符的，但是这种用法非常特殊，比如再从新定义加法操作的时候，加法操作就是用(+) 来定义的，(+)=f 就是重新定义加法操作（更过详细的Unicode参考4）
语言内置的状态符是不可以用作变量名的，比如你不可把 if,else这类关键字用作变量名：
```
julia> else = falseERROR: syntax: unexpected "else"julia> try = "No"ERROR: syntax: unexpected "="
```
Unicode变量名的有一些注意细节，如果要大量使用，可以参考文档：https://docs.julialang.org/en/latest/manual/variables/

Julia 变量名的常用风格

命名风格不是语法内容，这些内容是一些常见的比较利于编程的习惯，如果你有自己的更好的习惯，也可以用你的方法来写，但是代码的作用一是为了驱动程序，得出我们想要的结果，第二则是让别人了解你的思想，如果大家都看不懂你的什么，那么这个代码其实是不成功的。
常见的命名风格有以下几条：

变量名采用小写字母
每个单词之间用 _ 分开，但一般不要使用，除非这个变量名特别长，且不好读。
Types或者Modules的名字以大写字母开头，每个单词首字母大写，用驼峰形式代替下划线
functions或者macros用小写形式，不要使用下划线。
function如果要对其参数进行写的操作的话，函数名后面要加!，这种函数叫做 “变异函数”(mutating)或者“取代函数”(in-place)因为这种函数不只返回一个结果，还会在过程中修改参数的值。
更多编程风格可以参考https://docs.julialang.org/en/latest/manual/style-guide/

总结

本文介绍了Julia变量和简单的命名风格，好的编程风格是很重要的，无论对于编码还是调试。

Reference

https://docs.julialang.org/en/latest/manual/variables/

原文地址: https://face2ai.com/Julia-Lang-3-Variables

【Julia】开始使用Julia

2018-10-01T01:16:49.000Z

Abstract: 本文介绍如何在命令行中开启、使用、退出Julia，如何执行文件，以及执行Julia时候的可选选项（参数列表）
Keywords: Julia，Julia使用，Julia命令行，Julia执行文件

开始使用Julia

本文我们来学习Julia的几种用法，包括便捷的终端交互，以及对于复杂功能的文件执行。

终端使用Julia(交互模式)

在终端启动Julia比较简单，上文我们完成了Julia的安装，并在Mac下完成了命令行下启动的设置，那么我们可直接在命令行提示符后输入julia 完成Julia环境的启动（交互模式），如果出现下图，表示启动成功了。

在交互模式下执行命令

在Julia的命令提示符后输入1 + 2 后回车，就会显示计算结果。

$ julia

               _
   _       _ _(_)_     |  Documentation: https://docs.julialang.org
  (_)     | (_) (_)    |
   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.
  | | | | | | |/ _` |  |
  | | |_| | | | (_| |  |  Version 1.0.0 (2018-08-08)
 _/ |\__'_|_|_|\__'_|  |
|__/                   |


julia> 1 + 2
3

julia> ans
3

ans变量表示上次计算的结果，如果在这个ans下再次输入ans并回车，显示结果是：

julia> 1 + 2
3

julia> ans
3

julia> ans
3

注意：ans只能在交互模式下使用

在交互模式下执行文件

如果你有一个julia文件 file.jl，里面写的是计算过程:

1+3

你可以在交互模式下执行这个文件，使用命令 include(“file.jl”)

$julia
               _
   _       _ _(_)_     |  Documentation: https://docs.julialang.org
  (_)     | (_) (_)    |
   _ _   _| |_  __ _   |  Type "?" for help, "]?" for Pkg help.
  | | | | | | |/ _` |  |
  | | |_| | | | (_| |  |  Version 1.0.0 (2018-08-08)
 _/ |\__'_|_|_|\__'_|  |  Official https://julialang.org/ release
|__/                   |

julia> include("file.jl")
4

julia>

退出交互模式

退出交互模式回到终端有两种方法：

CTRL-d linux和windows下同时按下 ctrl 键和d 键
输入 exit()

终端执行Julia文件

在终端下执行Julia文件的方式和其他脚本的执行方式类似：

1	$ julia script.jl arg1 arg2...

如果我们执行上面我们说到的 file.jl那么在终端下的执行结果如下：

1 2	$ julia file.jl $

没有显示结果，因为我们在文件中只有 1+3这条指令，而没有要求他输出什么，在交互模式下，程序自动显示计算结果，但是在终端下执行脚本，只执行脚本中的命令，而不会自己显示什么。
接着我们编辑另一个文件script.jl，内容如下：

println(PROGRAM_FILE);
for x in ARGS;
    println(x);
end

然后我们加上参数，这里是输入给脚本的参数 —— arg1 arg2 …

$ julia script.jl foo bar
script.jl
foo
bar
$

这里的三部分分别是 julia (程序名，用于在终端中启动程序，类似于python脚本运行前的python，sh等)、 script.jl（脚本文件名）以及 foo bar （输入脚本的参数）。

Julia的参数

在执行脚本时我们给脚本了两个个参数（foo bar），同时，我们也可以给julia多个参数(上面的例子中 script.jl foo bar 是Julia程序的一个参数 )，加参数方式是在多个参数中间用 – 划分 ,例如上面的例子可以加上如下参数

1	julia --color=yes -O --script.jl foo bar

julia程序包含两个参数，分别是：

–color=yes -O
–script.jl foo bar

script.jl 包含两个参数：

foo
bar

Julia 的并行模式（本机和集群）

Julia可以以并行模式启动，启动参数是 -p或者 –machine-file
-p n 将会启动n个工作进程
–machine-file file 将会按照file中记录的机器地址，启动对应机器上的任务。
–machine-file 模式注意以下要求：

这些机器的登录方式必须是ssh无密码登录(不需要输入手工输入密码，而是通过ssh 秘钥登录)
这些机器上的Julia安装目录必须和当前执行命令的主机位置相同
file中的每一条机器记录格式如下
- [count*][user@]host[:port] [bind_addr[:port]]
  - count *是节点要执行的工作进程数量（类似本机的-p n）
  - user 默认是当前用户
  - port 是标准ssh的端口号，默认是1
  - bind-to bind_addr[:port] 是其他机器使用的IP地址和端口号，可以用来连接到本机。

Julia更多执行参数列表

Julia的更多参数列表如下，执行方法：

1	julia [switches] -- [programfile] [args...]

参数列表：

Switch	Description
`-v`, `–version`	Display version information
`-h`, `–help`	Print this message
`-J`, `–sysimage`	Start up with the given system image file
`-H`, `–home`	Set location of `julia` executable
`–startup-file={yes\|no}`	Load `~/.julia/config/startup.jl`
`–handle-signals={yes\|no}`	Enable or disable Julia’s default signal handlers
`–sysimage-native-code={yes\|no}`	Use native code from system image if available
`–compiled-modules={yes\|no}`	Enable or disable incremental precompilation of modules
`-e`, `–eval`	Evaluate
`-E`, `–print`	Evaluate and display the result
`-L`, `–load`	Load immediately on all processors
`-p`, `–procs {N\|auto`}	Integer value N launches N additional local worker processes; `auto` launches as many workers as the number of local CPU threads (logical cores)
`–machine-file`	Run processes on hosts listed in
`-i`	Interactive mode; REPL runs and `isinteractive()` is true
`-q`, `–quiet`	Quiet startup: no banner, suppress REPL warnings
`–banner={yes\|no\|auto}`	Enable or disable startup banner
`–color={yes\|no\|auto}`	Enable or disable color text
`–history-file={yes\|no}`	Load or save history
`–depwarn={yes\|no\|error}`	Enable or disable syntax and method deprecation warnings (`error` turns warnings into errors)
`–warn-overwrite={yes\|no}`	Enable or disable method overwrite warnings
`-C`, `–cpu-target`	Limit usage of cpu features up to ; set to `help` to see the available options
`-O`, `–optimize={0,1,2,3}`	Set the optimization level (default level is 2 if unspecified or 3 if used without a level)
`-g`, `-g`	Enable / Set the level of debug info generation (default level is 1 if unspecified or 2 if used without a level)
`–inline={yes\|no}`	Control whether inlining is permitted, including overriding `@inline` declarations
`–check-bounds={yes\|no}`	Emit bounds checks always or never (ignoring declarations)
`–math-mode={ieee,fast}`	Disallow or enable unsafe floating point optimizations (overrides @fastmath declaration)
`–code-coverage={none\|user\|all}`	Count executions of source lines
`–code-coverage`	equivalent to `–code-coverage=user`
`–track-allocation={none\|user\|all}`	Count bytes allocated by each source line
`–track-allocation`	equivalent to `–track-allocation=user`

总结

本文介绍Julia基础的启动，以及并行模型，执行参数的选择等知识。

Reference

https://docs.julialang.org/en/v1/manual/getting-started/

原文地址: https://face2ai.com/Julia-Lang-2-Getting-Started

【Julia】Julia环境搭建（Mac,Windows,Linux）

2018-09-29T13:56:02.000Z

Abstract: 本介绍Julia环境的搭建，包括在Mac，Linux以及在Windows下的安装过程，最后我们使用atom搭建一个Julia IDE
Keywords: Julia环境搭建, Mac,Julia Windows,Julia Linux,Juno

Julia环境搭建（Mac,Windows,Linux）

上文我们说到Julia是一种适合数据科学的语言，那么今天我们就研究一下怎么安装Julia，以及完成一套IDE的搭建，很多人，尤其是写程序有一段时间，但是时间又不长的同学经常会纠结各种问题，比如为啥大牛都用VIM，是不是要学会VIM才能继续进步，说实话，不管是IDE还是VIM还是EMACS，不过是个工具，哪个你用的效率最高哪个就是最好的，至于vim的神话，我的解读是，vim必然是个利器，入了门的人得心应手，但是入门困难的就一直处于困难阶段，我们的最终目的是为了完成我的设计的算法，评估测试算法，至于用什么编辑器，什么环境，我觉得你找个最顺手的，那就是最好的。
本文我们用到的编辑器是Atom，因为atom中的插件可以直接把一个编辑器扩展成IDE，如果你是资深vim用户，那么你一定有办法自己把编辑器调整到顺手状态。
所以我们今天只讲安装和atom下的IDE搭建。

安装Julia

安装Julia并不难，到地址 https://julialang.org/downloads/
下就能看到：

可以看到我当前的版本是1.0，目前1.1在测试，所以你们使用的时候可能都2.x了，如果基本套路变了，那么你就要仔细看一下说明了。

Mac下安装Julia

我们在表格中找到 Mac对应的安装包 .dmg 格式

然后点击下载（速度有点慢），

按照Mac程序的一般安装方法，拖到应用里面即可。

这个时候就算安装完了，但是使用mac的程序员启动这种没界面的应用喜欢使用命令行，这里的做法是，建立一个从应用到命令行搜索目录的软连接：

1	ln -s /Applications/Julia-1.0.app/Contents/Resources/julia/bin/julia /usr/local/bin/julia

当前julia版本是1.0。

注意这个”Julia-1.0.app” 会随版本不同，不要照抄这段命令。

在命令行中启动julia如果出现下图，恭喜，成功了：

Windows下安装Julia

Windows下安装就要注意一下操作系统版本了：

windows7 和server 2012 需要特别的组件，原因我也不知道，我目前只有一台Windows 10 的pc，所以我就下载64-bit的安装包，安装结果没测试，大家有问题留言吧。
如果想在cmd中启动，需要添加环境变量，但是windows程序员一般不用cmd启动程序

Linux下安装Julia

Linux下我目前只有ubuntu

方式一：apt

1	sudo apt-get install julia

输入sudo密码就可以完成安装了

但是问题是，我的ubuntu版本比较低，所以对应源上的Julia还是老版本的

看到了吧，官网的版本都到1.0.0 了，

方式二：下载tar.jz

对应的办法就是卸掉这个然后去下载官网上的通用版本，然后解压编译：

注意你的平台，是X86 还是arm以及操作系统的位数。
如果你是linux程序员，我觉得后面的事我没有一步一步跟你说了，因为都是linux下通用的编译安装步骤，这里不再赘述了。

安装Atom，搭建IDE

接着我们要安装一款编辑器，github出品，良心之作 —— atom，这款编辑器的优点就是开源，速度快，核心小，尤其是对于从windows刚来linux，或者mac的同学们，离开vs有可能水土不服，但是相信我，如果你用了atom或其他类似的编辑器，你就会忘记那个好多G的vs。
下载atom: https://atom.io
有多重平台，Mac，Linux，Windows对应的安装包，安装套路和Julia类似，都是普通的安装过程，然后，最关键的一步
注意，这是我目前正在写文章的atom的状态：

比较正常，接着我们要安装juno了: http://junolab.org 注意区分juno，有好多叫juno的项目，比如NASA什么的。还有就juno要求的atom平台版本号。

Juno是一个atom上的插件，Windows 或者Linux 使用快捷键

1
2
3

Mac下使用```Cmd+,``` 打开atom的插件安装界面
![](./markdown-img-paste-20180929230510192.png)
选择```install

安装完juno后，他会自己给你安装一些他需要的扩展：

右上角安装完成后重启Atom就有Juno可以用了，就这样：

然后我们就成功了，当网速不那么流畅的时候稍微等一会儿，juno安装完成会提示你。不要着急。

总结

今天我们完成了Julia的环境搭建，有了环境，有了IDE，我们就能大展拳脚，看看Julia是不是真的那么高效便捷了。

Reference

https://docs.julialang.org/en/v1/manual/getting-started/

原文地址: https://face2ai.com/Julia-Lang-1-Install

【强化学习】 1.5 强化学习的一个扩展举例

2018-09-28T00:42:24.000Z

Abstract: 本文介绍强化学习的一个具体例子，Tic-Tac-Toe，作为一种下棋类游戏，Tic-Tac-Toe规则简单，而且问题规模小，容易进行深入分析，了解强化学习在具体例子中的执行过程，进而了解强化学习的性质和特点。
Keywords: 强化学习，强化学习举例，Tic-Tac-Toe

强化学习的一个扩展举例

今天我们来讲一个很有趣的例子，英文名字叫”Tic-Tac-Toe” 中文名字有翻译成“井字棋”或者什么的，我们这里为了方便就称之为“井字棋”，叫井字棋的原因是因为其棋盘是个“井”字形的，玩法简单，但是这个玩的过程可以使用强化学习的方法来学习，这个简单的棋可以让我们从各个细节审视强化学习的特点，有点，缺点，以及一些小技巧。

“Tic-Tac-Toe”简介

规则描述

Tic-Tac-Toe的规则描述如下：

使用 $3\times 3$ 的正方形棋盘，双方各使用 ‘x’和’o’ 作为棋子，轮流下棋，
谁的棋子最先连成一行或者一列，或者对角线，那么获胜，棋局结束
对方完成这个过程，则失败
如果在最终双方都没能连成一行或者一列，或者对角线的情况下，棋局结束，则为平局。

下图来自Wikipedia:“井字棋”

上面的棋局，使用 ‘x’ 的一方率先完成连成一行的准则，故执’x’一方获胜。

简单规则下的问题

下面这个视频是我在Google上找到的一个小程序录的一段视频。

your browser does not support the video tag

可见，在高级的情况下，双方（我和AI）基本都没法获胜，也就是平局会大量出现，原因是，我们对这种棋的技巧掌握的都很熟练，无法在现行环境（规则）下战胜对方，通过这个观察我们也能发现，在规则相对简单的游戏（“博弈”）中，平局会大量出现。
那么问题就要来了，我们 - 也就是人，在这种简单的规则下，多以平局收场，那么这怎么训练agent呢？如果每局训练总是平局，agent就不知道往什么方向走了。这里我们就要做出一些修改，我们让与我们agent下棋的人或者另一个agent不那么高级，换句话说，我们在简单规则下，降低规则执行者的能力，进而模拟出更高级的博弈（所谓更高级的博弈，无非是我们能力不足才会觉得当前环境，或者规则很困难）。
在后面的训练里，agent会将平局和失败都当做失败来处理，agent的目标明确，就是胜利。

非强化学习型的解决方法

这个棋局太简单，但是在如此简单的规则下，传统方法（非学习方法）都有诸多问题：

使用传统的“极大极小化”（minimax）方法，这个方法会假定对方按照某个既定方案下棋，而事实是对方可能无既定方案，或者既定方案我们永远无法得知。所以这个传统的博弈思想在此不适用。而且“极大极小化”（minimax）方法有个非常大的缺点：如果其认定当前状态必然失败的情况下，即使后面对手出现重大失误（可以逆转取胜的机会），其也不会采取任何致胜招数，而是按照既定失败的套路继续下去。
对于这种连续决策型问题的传统的优化方法，例如动态规划(dynamic programming)，可以计算出在对阵任何对手时候的最优解，但是前提是：对手的全部信息要作为输入提前提交给算法，其中包括在某特定情况（棋局）下，对手下一步棋下在哪的概率。如果我们提前不知道这些信息（大部分情况下，这个信息无法获得）
对于2中的动态规划方法，有另一种改进版就是在训练时和对手多次交手，从而记录学习出对手的信息，或者叫做给对手建模（model）然后再使用动态规划来寻找答案。

上面3中方法中，1和2对解决问题基本没有帮助，3有帮助。3和我们后面会介绍的很多强化学习方法有着非常相似的思路。

进化方法(Evolutionary Method)学习 “Tic-Tac-Toe”

进化方法中讲解了进化方法的缺点，就是没有使用agent和环境之间的交互信息来改变agent。而这里如果把进化方法直接使用到“井字棋”中，其表策略（policy）的特点是：直接search全部可能的位置，找到获胜概率最大的位置，然后下棋。也就是，策略要考虑到当前盘面（ $3\times 3$ 的棋盘上 x和o的分布）并给出获胜概率最大的下棋位置。而这个概率的获得就需要和对手多次下棋，记录，学习出来的。有了这些信息，agent就知道接下来一步或者接下来很多步应该怎么走。
一个典型的进化方法就是在“策略空间”的 hill-climb ，这种方法的策略是逐渐找出能提高表现的策略（并不是一下找到最优的方法，而是像爬山一样，每一步都找到一个能提高agent表现的方案，一步一步的向上爬）。
遗传方法就更加直接暴力了，直接直接评估大量的策略(policies)，去除不合格的，留下好的，然后产生新一代的，以此迭代，直到问题解决。
解决“井字棋”问题，理论上存在很多种不同的优化方法。

评价函数(Value Function)学习 “Tic-Tac-Toe”

上面我们说了进化方法在井字棋中使用，下面我们就要看看另一个方向的方法 —— 评价函数(value Function)的方法了。

设计评价函数

我们列一个表，这个表中的每个格子对应一种状态（state），整张表就对应井字棋的全部情况，这个表的每一项都对应一个概率值，这个概率值表示当前状态下最后获胜的期望，注意两点，一个是当前的状态，第二是最终获胜的期望。这个期望，我们就把其当做评价函数的结果，value —— value值。这个表就是我们的评价函数(Value Function)了.
在井字棋中，这个表就包含下一步棋应该怎么走的评估。通过当前状态，我们可以缩小下一步可能出现的状态范围，然后比较所有可能的状态，如果A状态比B状态有更高的获胜期望，那么我们认为A状态比B状态好，所以我们倾向于把棋子走到A状态显示的位置。
对于这个状态表，假设我们执x，那么如果某状态中包含x在一行或者一列或者对角线，那么这个状态的获胜期望是1，相反，如果o在一行或者一列或者对角线，那么这个状态的获胜期望是0；同样，如果对应状态是棋盘下满，而没有获胜方，这时候期望同样是0 。除了上述这些情况，其他状态的初始化值都是0.5，即有一半的可能性会获胜。

执行(exploitation)和探索(exploration)

当我们有了这张表（上面的评价函数）我们就有了制胜法宝，但是具体执行也是有不同方案的，我们可以查找最大value的状态，然后执行贪心(greedily)选择，这是使得获胜期望最大的策略，也就是完全执行表（value function）中的指示，这个被称为exploitation。
但是我们有时候（偶尔，occasionally）在某些步骤中不选择最大value的状态，而是选择随机状态，因为这种方式可能带我们到一个前所未见的state下。

上面两段描述的评价函数，以及状态表在井字棋中可以表现为下图：

学习评价函数（value function）

在下棋的过程中，我们不断修改已有value function对于井字棋，也就是上面我们提到的那张表，我们的目标是试图使其更加准确，为了达到这个目的，我们增加了一步“返回”（back up）过程（上图中的红色箭头），这个过程在每一步贪心选择后执行，这一步执行的实质是通过当前状态值（value）来适当修改上一步状态的value，使它更接近现在状态的值（评价函数的结果，value），比如图中的红箭头就是让e的值（评价函数的结果，value）更接近g的值（评价函数的结果，value）。
上面的数学表达为，让 $s$ 为贪心选择之前的状态的值（评价函数的结果，value）， $s’$ 为贪心选择后的值（评价函数的结果，value），然后我们的back up更新 $s$ 值，方式是：
$$
V(s)\leftarrow V(s)+\alpha[V(s’)-V(s)]
$$

其中 $\alpha$ 是一个小的正小数，叫做“步长”（step-size）参数，这个参数影响学习速率（the rate of learning）注意这里rate是速率的意思，而不是比率的意思，所以学习率这种翻译，我觉得欠妥。
这种基于 $[V(s’)-V(s)]$ 的变化方式（update rule）被称为“时序差分学习”（temporal-difference learning），字面解释：基于两个不同时间点的值（评价函数的结果，value）的差值的方法，这个解释基本能反应这类方法的特点。
这类方法是我们后面要重点学习。

上述方法对于这个任务可以非常出色的得出不错的结果，例如，在步长参数（step-size）被精确递减后，这个算法对于固定的对手是收敛的，每一步都能给出胜算最高的走法。也就是说，这个方法对于一个固定的对手给出了最优策略。这里的一个关键就是 步长参数（step-size） 的调整，如果这个参数不调整，那么最后的结果也会收敛，但是速度会慢很多。

“进化方法”与“评价函数”的区别

上面这些细节也佐证了我们前面提到的：“进化方法”和“评价函数学习法”的区别：

进化方法的为了学习一个策略，其根本原则是策略不变（不是永久不变，是在目前的短时间内），而去和对手进行多场游戏（就是和环境的交互，interaction），或者使用一个对手的模型，来模拟进行多场游戏。在进行多次游戏后，胜利的次数给出当前策略胜率的无偏估计，然后这个无偏估计被用来优化策略（根据一定的规则从多个策略中淘汰某些，或者其他办法生成新的策略）。
但是问题是每次策略进化都需要多场游戏来计算概率，而每场游戏内的信息被忽略掉了（因为计算概率只关心结果的 —— 胜利出现的次数）而且当一个player（也可以成为agent）获得了胜利，他本场比赛的所有行为都会被认为是正确的，且每一步给予相同的得分，但实际上并不是这样，首先并不是每一步的重要性都一样，其次是并不是每一步都是正确的选择。
对比之下“评价函数学习法”就有不同的表现了，每一步棋和环境的交互信息都会被利用来学习。

总之，进化方法和“评价函数学习法”都是在搜索policy的空间，但是“评价函数学习法”搜索起来更高效，因为他利用了更多的有效信息。

“Tic-Tac-Toe” 中的强化学习

这个小小的游戏基本展现了强化学习的所有特性：

首先强调和环境的交互，这里就是和对手下棋。
目标明确，正确的行为需要 Planning 或者 Foresight 来处理延迟出现的结果
另一个显著的特征是，RL形成有效的 Planing 以及 lookahead ，而且这个过程不需要使用对手模型（model of opponent），也不会对后面全部的可选操作序列进行搜索（减少policy的搜索空间）

虽然RL的这几个有点很是吸引人，但是这不能掩盖其某些缺点：

训练的时的对手，不可能是人，而还是程序，所以这个对手不是Nature的
学习过程也是打碎成不同的步骤（对于井字棋每一局都是一步），而不是连续的进行，只有下完了才会产生reward信号，而不是连续的。
同样对于某些连续的任务，我们也要把它拆成离散形式。

井字棋的搜索范围很小，现在alpha go所面对搜索空间比井字棋大到不知道哪去了~，1992年的时候就有学者研究了比井字棋更复杂的游戏，空间大概规模是 $10^{20}$ 他们使用了神经网络作为模型，结合上面的方法得出了很好的结果，具体我们在后面16章学习。
强化学习面对如此巨大的policy空间的行为，主要取决于他对之前学习的信息的理解程度，理解的越好，其行为就更加可靠，反之则不可靠。

先验知识(Prior Knowledge)与模型(Model)

在井字棋游戏中，RL的agent只知道游戏规则毫无游戏经验或者先验知识，先验知识是锦上添花的元素，也就是，有或者没有这个要靠缘分，就算没有我们也要解决问题，而如果有，那么我们可以利用先验知识节省大量时间，或者大幅度提高结果。RL处理先验知识有多种方式，并且对学习结果。
我们目前处理的情况都是当前环境对agent有明确的反馈，且state明确，在有些问题中state可能是隐藏的或者有大量重复的state这种情况过于复杂，不在我们初级范围内。
Model同样是强化学习中的一个组成要素：当我们的RL（agent）学习应该怎么样应对不同的状况的时候，他需要思考的就是环境会怎么对他的action进行反应，有些问题确实如此，环境对action的反应就是一个模型，但是有的问题可能比这要更复杂一些，他们有的时候什么模型都没有，不知道环境会做出什么样的反应，面对这样的问题RL也有解决方案。同样的，有模型可以帮助RL更快的学习。
但是我们的井字棋就没有这个model，原因是对手怎么下棋是不可能有模型的，这就是个 Model-Free system。存在精确模型的系统由于模型被精确的使用，所以做起来相对简单，但是有的时候建立模型的过程会成为这个问题的瓶颈，本书中我们会讨论一些Model-Free的问题，同时组合这些问题成为更复杂的系统。

总结

本文通过研究Tic-Tac-Toe这个小游戏，从实际应用的角度分析了RL的各个方面，基本涵盖了大部分主要内容，后面我们进入第二章，开始分析具体算法，欢迎大家关注。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址:https://face2ai.com/RL-RSAB-1-5-An-Extended-Example

【强化学习】 1.4.1 强化学习与优化方法

2018-09-26T00:50:41.000Z

Abstract:本文介绍强化学习和优化方法之间的关系，他们之间一些共同误区以及强化学习的工程性质
Keywords:强化学习，优化方法，强化学习工程化

强化学习与优化方法

优化方法是机器学习的一个关键组成部分，大部分监督学习和部分非监督学习都要依靠优化方法找到模型的参数，强化学习中也会使用优化方法中的一些算法来使agent获得更多的reward signal，而强化学习或者优化方法在进行过程中有些说法会让人感到迷惑。

“强化学习的目标”与“优化问题的目标”

前面我们提到过，强化学习的目标或者叫做战略目标就是让agent获得更多的reward signal，注意“更多”这个说法，从数学的角度讲，更多是个增长的过程，而这个过程有没有极限，也就是会不会有“最多”这种情况，这也成了强化学习的一个极限。

同样的问题也出现在优化问题中，优化问题的解是否还可以进一步优化，或者，这个解已经是全局最优的了，这个判断其实是非常困难的。

所以，我们在描述强化学习或者优化问题的时候，提到“最大化xx的鼓励信号(reward signal)….”或者 “最优化xx函数” 这些都不是强调一定要找到最大的唯一解，事实上，这个解可能本身就不存在，或者即使存在，由于种种原因，我们也没办法找到这个解。
强化学习要做的就是不断的让agent去尝试找到比目前更好的 策略(policies) 来得到更多的鼓励信号(reward signal)
如果用一句话概括就是：

“Optimization is not the same as optimality”（优化不等于最优）

如果某个优化方法在别的系统中表现非常优秀，但是当他移植到其他系统中仍然需要仔细评估，和测试，因为系统的 “不可预测性” 使得算法的工作 “环境非常复杂”，所以不能依靠算法之前在别的系统的表现来随意的评估其在当前系统中的表现。agent通常能够发现预料之外的 策略(policies) 来获得意想不到的好结果。如果把这个过程对比自然界中的生物的行为的话，那么就应该是我们所说的“创造力”了。这种创造力表现在，“ 变化（variation） ”和“ 选择(selection) ”上，这是进化能解决物种所面对的生存挑战的基础，也是强化学习解决人工智能所面对的挑战的基础。但是创造是有风险的，因为有的时候我们并不知道“变化（variation）”是朝向好的方向还是不好的方向或者根本就是无意识无目标的变化。

优化，变化等以上观点一直以来都被思考，就是哪个才是最好的，如果改变agent目前的策略效果会变好还是变坏是不确定的，所谓的继续优化是 “优化” 还是 “恶化”？一个很有意思的比喻是；

“Be careful what you wish for because you just might get it”(小心你想得到的，有可能你已经得到了)

强化学习和工程

为了解决上面这个“世纪难题”（最优性，不可预测性，变化，等问题），有很多策略（注意这是抽象的宏观的方案，而不是具体实施的方案）被使用，比如：

限制agent的可变化方向
使目标函数(objective function)对风险敏感

但是这些方案都是比较片面的解决方法，不能从根本解决问题，标准工程化的要求是，在系统正式上线工作之前，要经过严格的测试，因为系统一旦上线，产品一旦销售，我们的技术必须对使用者负责，如果系统存在不可预测的风险，且风险对于使用者是高危的，不可抗拒的，那么我们必须在测试阶段发现，并且解决，这和其他工程师一样的。由于强化学习等机器学习算法都存在不可预知的行为，所以在上线之前更应该严格评估。

优化结果的随机性不可预测性只是强化学习工程化中的风险点之一，其他工程中存在风险，在强化学习中同样也大大小小的存在，所以在评估时，不能只关注强化学习的风险点，比如数据安全，网络安全，等等在其他工程中的风险，在强化学习都一并存在。
讨论详细的问题在我们这里很不现实，我们只要记住，严格的测试系统，强化学习系统，机器学习系统，提前发现风险，解决风险，降低风险这些事情无论何时都是重中之重。

总结

本文介绍了强化学习和优化方法之间的一些概念混乱，优化不一定找到最优解。以及强化学习的工程化问题，降低风险，解决风险是所有机器学习工程应用中的重点。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址：https://face2ai.com/RL-RSAB-1-4-1-Connection-to-Optimization-Method

【Julia】Julia编程语言介绍

2018-09-25T04:04:01.000Z

Abstract:本文是介绍Julia编程语言系列博客的第一篇，本系列用短小的博客介绍Julia编程的基础知识
Keywords:Julia编程语言,Julia简介,Julia特点

Julia 编程语言

Julia 简介

Julia语言是MIT的几个科学家，觉得Matlab还有Python不太适合自己的行业，所以自己搞出来的一种编程语言，和另外几百中编程语言一样，其有独特的受众，那就是 —— 数据科学。Julia是小众的，其诞生以来的基本目标就是，能像C语言编写的程序一样快，但是又要有Ruby一样的动态性。Julia主要的目标用户是数据科学家，统计学习，机器学习从业者等。

Julia 与 Python

平时的工作，基本都是跟TB，PB级别的数据打交道，所以，Python速度从一开始就受到诟病，虽然你可以让python结合c语言来提速，但是对于特异性很高，没有现有库支持的任务，那种工作量和直接写c语言差不多。
而且，Julia程序及其好写，我个人觉得Python的面向对象的机制对于数据科学家来说，基本没什么用，我们更多的是按照某个流程处理全部数据，而不需要用到类；
由于Python通用性，对于数据科学家来说，干点什么事都需要import一大堆各种各样的包，读个csv都要先import点什么。但是Julia针对数据处理，所以很多包都内置了，相对于Python会简洁很多。
Python用途更广泛，而Julia面向数据处理，所以这些差异都在情理之中。

Julia 与 c++

当然C++的特性基本更用不到了，如果使用C++没有用到多态和继承，那么就相当于在写c语言，而数据科学，想来想去，也不太会用到多态和继承。

Julia 与 R

至于R语言，个人不太了解，但是Julia肯定比他快。
Julia可以在使用过程中轻松的集成R或者Python等语言编写的库，这个可以大大的提高工作效率。

Julia 有什么特点

Julia的特点很多，但是主要概括如下，如果你的工作需要这些特点，那么Julia是你的好选择。

卓越的性能
- 某些任务速度堪比C语言
强大的基础库
- 内置线性代数运算，高效
支持分派
- 同一个函数可以实现不同的过程(比c++的多态更简单)
容易上手
- Julia语言非常简单，学过c语言的同学可以在24小时内上手
用户友好的界面
- 本地还是远程的Julia用户界面都很好用
与其他语言对接
- 无缝拼接，R，Python和C
开源
- 所有文档都可以找到
开发者承诺
- 不会开发到半路然后跑路
自定义函数的性能
- 自己写的函数也很快，不会只有内置的函数快，而自定义的速度慢
并行
- 轻松的并行，数据科学最需要的就是并行，而Python真的不太好用
灵活性
- 开发程序灵活，可以找到各种问题的方案解决

为什么选择Julia

如果你是跟数据打交道的，从事机器学习，数据处理类的工作，那么Julia的高效，并行，绝对是你的不二之选。
活跃的社区和丰富的功能，持续的更新，也是这门年轻的语言将会成功的先兆。
最主要的，就是效率，减少一分钟的运行时间，对于有些项目，可能是至关重要的，对于处理数据，我们需要提高的就是：效率，效率，还是效率

总结

本文介绍了Julia的基本性质，如果Julia适合你，那么快加入吧。

引用

Voulgaris Z. Julia for Data Science[M]. Technics Publications, 2016.
https://en.wikipedia.org/wiki/Julia_(programming_language))
https://julialang.org

完整文章访问原文地址:https://face2ai.com/Julia-Lang-0-Introduction

【信息论、推理与学习算法】本系列博客介绍

2018-09-21T03:53:59.000Z

Abstract: 本文是本系列的第一篇，介绍本系列的主要内容
Keywords: Information Theory，信息论，Inference，推理，Learning Algorithms，学习算法

信息论、推理与学习算法介绍

这个系列是信息论相关内容的介绍，信息论是什么可能有些做机器学习或者AI的同学们不太了解，而做通信的同学应该是非常清楚的，如何准确的定义信息论是什么，不在我的能力范围内，但是我们平时接触到的图像，或者简单点说灰度图像，一个8bit的像素点能有多少阶灰度，为什么有256，而不是258或者其他的，这个其实就属于信息论的知识范围，而信息论和机器学习有关系么？答案是肯定的，凡是处理信息，传递信息的过程，都多多少少跟信息论有那么点关系。
本系列主要面对的读者是： 从事机器学习，人工智能类内容研究的同学，工程师，或者爱好者
需要的背景知识：工程专业，科学类专业，或者数学类本科1，2年级的数学知识，包括，微积分，概率论，线性代数的基本知识（本站已经完成这些基础知识的全部博客，可以随时查阅）。
本书封面：

机器学习，信息论

传统的信息论课程不仅包括Shannon的信息化思想，也有实际解决问题的现实应用，我们这个系列更加进一步的包括了：

Bayesian Data Modelling
Monte Carlo Methods
Variational Methods
Clustering ALgorithms
Neural Networks

为什么要把信息论和机器学习弄到一起？
信息论和机器学习是一个硬币的两面！
60年代一个领域 —— 控制理论（cybernetics）在信息论，计算机科学，和神经科学等学科中非常火爆，这些科学家们都在研究一个相同的问题，那时候信息论和机器学习还是属于同一类。大脑是一个压缩信息，进行沟通的系统，而在数据压缩（data conpression）和纠错码上（error-correcting code）表现最好的（state-of-the-art）的算法上使用的工具，在机器学习中也会使用。
这些种种迹象都表明，机器学习和信息论有着密切的关联，而我们本系列更关注的就是信息论在机器学习方面的应用，或者帮助我们理解一些算法的特点和局限。

学习地图

本书的目录如下,当然这些课不是我们所有要学的，我画了个地图，大概应该是按照这个地图来完成我们的博客的：

Preface

1 Introduction to Information Theory
2 Probability, Entropy, and Inference
3 More about Inference

I Data Compression

4 The Source Coding Theorem
5 Symbol Codes
6 Stream Codes
7 Codes for Integers

II Noisy-Channel Coding

8 Dependent Random Variables
9 Communication over a Noisy Channel
10 The Noisy-Channel Coding Theorem
11 Error-Correcting Codes and Real Channels

III Further Topics in Information Theory

12 Hash Codes: Codes for Ecient Information Retrieval
13 Binary Codes
14 Very Good Linear Codes Exist
15 Further Exercises on Information Theory
16 Message Passing
17 Communication over Constrained Noiseless Channels
18 Crosswords and Codebreaking
19 Why have Sex? Information Acquisition and Evolution

IV Probabilities and Inference

20 An Example Inference Task: Clustering
21 Exact Inference by Complete Enumeration
22 Maximum Likelihood and Clustering
23 Useful Probability Distributions
24 Exact Marginalization
25 Exact Marginalization in Trellises
26 Exact Marginalization in Graphs
27 Laplace’s Method
28 Model Comparison and Occam’s Razor
29 Monte Carlo Methods
30 Ecient Monte Carlo Methods
31 Ising Models
32 Exact Monte Carlo Sampling
33 Variational Methods
34 Independent Component Analysis and Latent Variable Modelling
35 Random Inference Topics
36 Decision Theory
37 Bayesian Inference and Sampling Theory

V Neural networks

38 Introduction to Neural Networks
39 The Single Neuron as a Classier
40 Capacity of a Single Neuron
41 Learning as Inference
42 Hopeld Networks
43 Boltzmann Machines
44 Supervised Learning in Multilayer Networks
45 Gaussian Processes
46 Deconvolution

VI Sparse Graph Codes

47 Low-Density Parity-Check Codes
48 Convolutional Codes and Turbo Codes
49 Repeat{Accumulate Codes
50 Digital Fountain Codes

地图

根据我们的目标和书上给出的建议，我们要学习下面这些章节，箭头之间表示先后关系，箭头指向的课程需要在前面的课程完成后才能进行：

github: https://github.com/Tony-Tan/MachineLearningMath 上有高清大图

总结

本文是信息论的第一课，后续就围绕上图展开，对于基础不是了解的同学可以去看前面的其他博客，谢谢支持。

【强化学习】 1.4.0 “进化方法”和 “决策梯度方法” 概论

2018-09-20T04:59:01.000Z

Abstract: 本文介绍强化学习中的一些局限（limitation）和机遇（scope），介绍进化方法和决策梯度方法的区别和优劣
Keywords: Evolutionary Method，进化方法，Policy Gradient Methods，决策梯度方法

“进化方法” 和 “决策梯度方法” 概论

进化方法是我在学习“强化学习”这本书之前认为的在人工智能中必然要有的一个部分，但是本书给了我一盆冷水，本书作者认为进化算法对强化学习的作用不太明显，或者说缺点更多，不适合用作强化学习的方法。
但是我认为AI如果能达成，一定是模拟人或者动物的智慧形成过程的，即使进化方法不是学习技能（learn skills in individual lifetime）的主要方法，但是其对智慧的长期形成一定有非常重要影响，不能因为进化方法不适合强化学习的某些任务就彻底否定他，相反我们要注意他们的结合。
本书在讲述强化学习的过程中主要是围绕 Estimating Value Function展开的，但是Estimating Value Function在强化学习中不是必须的，Estimating Value Function前一篇介绍过https://face2ai.com/RL-RSAB-1-3-Elements-of-RL/。

进化方法(Evolution Method)

在wiki上有进化的详细解释，如果有对进化算法不了解的同学可以大概看看或者自己google 。如果用概括性的语言描述一下，大概是这个样子的：

进化方法，或者遗传算法是模拟生物繁殖时候基因交换，基因变异等过程来对某个Agent进行优化的方法

举个例子：我们有一个任务M，我们模拟用10000个随机生成的Agent去完成任务，这些agnet是第一代，其中只有100个完成了；那么我们重新组合这100个的“基因”（按照各种设计的方法）产生10000个新的Agent，这些Agent就是第二代，去完成任务M，有200个成功了，继续进行第三代，第四代，直到找到一组或者多组稳定的“基因”能成功完成任务，这个过程就是进化方法，其主要过程在于组合基因和淘汰不满足对象。
类似的进化过程，进化算法，以及模拟退火等优化方法都是类似的套路。

这类方法是没有 Estimating Value Function 的

这就是本文的一个关键结论。

通过我们上面例子的描述可以发现，我们的进化算法只有“生”和“死”，比如产生新的agent是生，淘汰agent则是死，agent的全部能力全部来自遗传，这从人类进化的角度来看是不对，我们并不是靠生孩子进化到如此的，每个agent在有生之年不多研究进去，我们的人类才进化到现在的文明，作者也是这个观点，而且其对agent的有生之年的学习过程（agent自我完善policy的过程，人和动物完善自己的skill的过程）更加关注。
但是进化方法也是有些作用的，在某些强化学习问题中，进化方法也是可以使用的，一般这种问题有以下特点：

Policy的搜索空间很小
Policy的搜索空间是结构化的，比较易于搜索
时间充足，比如这个训练程序可以跑一个世纪

还有一种特殊的情况，就是在agent不能准确感知环境(Environment)的状态(State)的时候，进化方法很有用处.
这个也可以跟生物进化联系起来，在最初的地球，没有生物，有机物出现，第一个有机体出现，他们有任何感知能力，只能通过遗传，变异这种方式获得适应环境的生物，在变异出器官组织后，才能对环境进行感知互动，进化自己的policy

本书（本系列博客）主要重点在于agent在和环境interact的时候的“学习”，而进化方法就没这个过程，并且在interaction的过程中的细节，是agent进化的一个重要信息来源，这些细节信息使用起来会使得policy 的搜索更加高效，
所以我们可以总结一下进化方法在强化学习过程中的几个缺点：

忽视太多强化学习问题背后的结构信息
舍弃了搜索policy过程中其实是一个函数，来对应state和action（进化算法没有这个）
忽略了agent的lifetime的policy选择和他所处的环境和状态等信息。

虽然agent当前的state可能是错误的，就是agent可能是判断错误了（偶尔会出现这种问题），但是这并不影响这些信息（state，action等）对学习过程的帮助。

“进化方法”和“学习过程”（主要指agent自我修正调整policy的过程）在自然过程中有很多相同的特征，但是其目前看来确实不适合强化学习问题，所以本书（本系列博客）中的强化学习方法一般不包括进化方法

决策梯度方法(Policy Gradient Method)

这里有一个类似进化方法的学习方法，我们会在后面经常用到，这也是一个非常简单的方法，可以解决一些小的问题，叫做 “决策梯度方法”（Policy Gradient Method）
这种方法的特点是agent中的参数是有限的，换句话说，这个空间是离散且有限的，注意离散和不连续是两回事，有限的离散的空间参数个数是固定的，这样的话搜索空间会被缩小到很小，并且存在理论上的最优解，这种方法在有限的参数空间调整自己的policy来获得更好的reward，这个调整过程有点像进化算法的组合那一步，但是不同的是，这里的调整要根据agent和state之间的action来调整，而进化方法的调整方法是不关心这些信息的，所以他们有类似，但是又大不同。
决策梯度方法和其他的强化学习方法没有什么严格的定义区别，所以没有必要过于计较区分算法的归类。

Conclusion

本文介绍了进化方法和强化学习之间的一些关系，以及决策梯度方法之间的一些知识，注意进化方法是没有Estimating Value Function 的，这是问题的关键。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文地址：https://www.face2ai.com/RL-RSAB-1-4-0-Limitations-and-Scope转载请标明出处

【强化学习】1.3 强化学习的基础元素

2018-09-12T13:51:01.000Z

Abstract: 本文介绍除了agent和environment以外的，对于强化学习最重要的最基础的四个元素。
Keywords: Policy，策略，Reward Signal，奖励，Value Function，评价函数，Model of Environment，环境模型

强化学习的基础元素

前面我们说到了几个生活中的例子，和几个RL中基本模型，本文我们继续深入，探索目前强化学习中最基本的组成元素。

策略(Policy)

策略是我的翻译，我不知道“正确”的翻译是什么，但是我们还是老原则，用英文。书中的定义是

A policy defines the learning agent’s way of behaving at a given time.

换成中文，我觉得更接地气一点的就是Policy就是agent的在任意时刻的产生行为的依据，也就是说agent，或者人或者动物或者robot，在某一时刻，有明确的最终目的，但是此时此刻，面对这个时间点的环境的时候，他要产生某种规则的方式，就是policy。如果用数学的的形式就是
$$
f(环境)\to 行为
$$
这里面的 $f$ 是个映射，是不是函数不一定，这个映射，综合当前的所有环境信息，产生一个action。最简单的例子，这个policy可以是个映射表，当出现什么环境的时候，就做出什么样的决定，如果你穷举了下棋的所有棋局，那么每种盘面都对应了最佳的走法，我们把这个对应走法记录在一章表上，那么这个表（中的内容）就是policy

心理学中把这个叫做刺激反应法则（stimulus-response rule）或者叫做 association（翻译不出来）
Policy可以是非常简单的规则，比如自动驾驶看到红灯要停车，也可以及其复杂，比如自动驾驶要把在菜市场里的车开出来。
Policy是agent面对环境做出action的核心，但是这个核心有时候也可以是随机的，换句话说，上面那张“表”里面的信息可能是随机——有时候随机并不代表不可靠

奖励信号(Reward Signal)

激励信号，或者奖励信号，书中的定义：

A reward signal defines the goal in a reinforcement leaning problem

激励信号，就是agent的得分，目前我们的研究的agent在每一步都有来自环境的反馈，由于我们没有所谓的有teacher，所以我们会通过一个我们设计的[reward函数]，来计算出每一步我们得到的评分，而agent存在的目的就是在他的生命周期内最大化这个得分的总和。
reward signal是agent来自每一个action之后环境给与的反馈，得分定义这个action的好坏，以及好坏的程度；类似于生物中，对于刺激的反应，是表示舒服还是难受。
这个goal是立刻的明确的，不能有延迟以及模棱两可的评分，或者说是客观公正的，不能被agent改变的，换句话说，这个goal是公正的，agent不能又当运动员又当裁判。agent只能通过根据环境改变自己的行为来最大化自己的goal，评判有专门的[裁判]（后面会说到）。
agent不断学习新的知识来提高自己的得分，其工作方法是改变自己的policy，所以reward signal 就成了调整policy的主要依据了。
同样这个裁判也有可能是随机，没错，一个疯了的裁判，至于为什么会有这种情况，我也不知道后面会不会涉及。
第三章我们会介绍这个reward 函数对于agent不变是有生物学原理的，原理来自我们的大脑。

值函数(Value Function)

注意区分，Reward Function 和Value Function是不同的两个函数，作用不同，性质不同。书中的定义：

Whereas the reward signal indicates what is good in an immediate sense, a value function specifies what is good in the long run.

用中文说就是，reward是每次的结果，value function是来预测这个agent到最后能得到的总分。value function有一定的预测行为在里面，包括后面可能出现的情况，而这些情况是否发生目前是不确定的，一个类似的例子就是，你在准备高考，参加了两次模拟考试，reward是你这两次模拟考试的好坏，而value函数是要预测你最终高考结果的。
很有可能出现这种情况，前面几个step的reward 都很低，但是value function却依然很好。反之亦然会出现。

在RL中reward是最主要的，value function次之。如果没了reward那么agent就是无头苍蝇，而且没有reward就没了value的概念。value更像是辅助agent 来得到更多reward的参考书。
然而，agent做决定的时候有时候更多的考虑value function，这个原因是我们的RL最终目标是得到更高的reward总和，而不是某一步的reward，所以这会给我们一个错觉，就是value function比reward要更重要。
作为得到更多reward的参考，value的获得更加复杂，比获得reward要复杂的多，reward依据当前环境给出，而value是依据后面的环境给出，一个是静态的，一个是动态的（环境在变，agent的policy也在变）
在一般的RL算法的重要组成就是要找到有效value预测值，这个工作会是未来几十年的重点研究方向

环境模型(Model of Environment)

最后一个就是环境模型，环境是个很大的很抽象的概念，环境模型和环境并不是一会儿事，但是关系密切。

某个state下，agent的某个action可能会获得什么样的反馈，环境模型可以预测这个反馈，而实际的反馈是环境根据state和action给出的，所以环境模型越接近环境，就会越准确，环境模型更多的用来做Planning，就是agent在做action之前“思考，计划”
使用环境模型和planning进行的RL，我们称之为“基于模型的方法”，相反，就是“不基于模型的方法”
不基于环境模型的方法是更直接的trail-and-error 方式，经常被看做是planning方式的对立方法。但是第八章，会介绍同时使用 trail-and-error 和模型以及planning 的方法。
基于模型的方法会跨越我们RL中各种层级：low-level, trail-and-error, high level以及deliborating planning。

Conclusion

本文介绍了强化学习的四种基本组成元素，不但基础而且非常重要，基本就是后面所有的研究对象了。需要好好研究。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文来自：https://face2ai.com/RL-RSAB-1-3-Elements-of-RL转载标明出处

【强化学习】1-2 强化学习举例

2018-08-30T15:27:59.000Z

Abstract: 本文介绍几个对应于强化学习的生活中的例子，来具体化前面提到的名词和几个重要理论在自然界中的表现。
Keywords: 强化学习，强化学习举例，Agent，Environment，环境，Reaction，反应

强化学习举例

强化学习例子(Examples)

这几个例子都是实际自然界或者生活的例子，并不是RL的具体应用，所以不要理解错了，我们通过观察自然，观察生物智能的形成和遗传，是我们了解智能的有效方法，个人愚见，没准这也是唯一突破当前理解障碍的方法，生物通过数万年的演化，遗传，庞大的种群保证了其有大量的样本，来完成筛选和淘汰，每个个体的基因，神经系统，数量大到可能无法想象。所以如果连这些都没考虑过，没深入研究过，应该是对问题没有深刻理解的。
陶哲轩说过，如果你对问题的来源内容背景都不是很了解的话就想去解决问题，那么这个非常困难的。
我们来看几个例子：

一个专业棋手下棋，当他每下一步的时候，他考虑的都是在计算预测，当他走了某一步以后，可能的结果以及对方会进行的反制措施，或者有时候，凭借直觉立刻来决定这步棋怎么走。
一个自主的控制者，实时调节参数来控制石油精炼加工的工艺，这个控制者可以自主的取平衡产出-消耗-质量之间的平衡关系，而不需要完全按照工程师给出的精确结果。
小羚羊，小牛，在刚出生的几分钟就能挣扎的站起来，半小时左右就能以20mile/hour 的速度奔跑
移动的机器人，能决定是否需要进入一个新房间找垃圾还是马上找到路线去充电，他的决定取决于当前的电量，以及找到路线需要花费的能量
Phil准备他的早餐，虽然在我们看来，这个谁都可以，非常平常，但是整个过程，非常严苛，准备早饭的着一系列动作隐藏了一个巨大的复杂的条件网络，目标和子目标网络，比如，我们分析一下：走到厨房，打开柜子，选择原料，拿到原料，打开原料包装，然后把剩余的放回去；接着下一套动作是取碗，勺子，拿牛奶；这些的所有过程包括了眼睛的动作，寻找，定位，协调手完成动作；迅速决定用什么动作，把这些东西以什么样的轨迹放到哪里，并且不要碰撒旁边的其他容器。一个简单的早饭仔细分析竟然如此复杂，每一步都有明确的goal，比如取原料，是为了吃里面的东西，而不是为了打开包装，在吃饭的时候，用勺子吃了第一勺食物，是为了吃下一勺，以及最后从中获得能量。无论Phil是否享受吃饭的过程，如果当前身体的station告诉他很需要能量，需要大概吃多少，以及想吃什么，他都会按照这个指令去做的。

强化学习的特征(Features of Examples and RL)

上面5个都是我们生活中自然界的例子，所有例子经过分析都可以得出以下结论：

所有例子都包含interaction（作用，反应）
这些interaction都是在agent和environment之间产生的
agent要做出决定，做什么
environment是agent所处的环境，agent在其中搜寻，并达到自己的目标
environment不管是否已知，agent都要去搜索

Agent的Actions会影响未来Environment的State，以及Agent后面的选择空间，例如：

下棋的这一步决定，直接影响棋手下一步的走法
机器人走的下一步，会影响他的电量，和他找到充电站的消耗能量

所有这些action的结果都会在若干步后体现，而不是马上反映出来，所以目前agent能做的就是预测和计划（prediction and planning）

有效性(Effects of Actions)

上面这些例子，所有action的结果全部无法完全预测，所以agent只能自己随时注意environment的变化，随时做出反应。
比如在Phile做饭的过程中，他要仔细盯着要拿出来多少材料，加多少牛奶，而且不能溢出来。
所有例子中的目标在某种意义上说都是非常明确地，agent通过直观的感受来判断是否向着目标前进。比如：

棋手知道什么样算是赢了
石油提炼工知道生产了多少油
机器人知道自己有多少电，还有多久能到充电站
Phil知道自己吃没吃饱

Agent的经验(Experience of Agent)

所有例子，agent都能根据经验提高他们的表现：

棋手反复训练能提高技艺
羚羊通过反复的尝试知道怎么能站稳，能奔跑
Phil天天做早餐，所以知道什么样的工序最优

那么agent后面的技能是根据前面的经验，那么刚开始的agent从哪来的经验呢？（Agent初始知识来源）

来自类似的任务
通过设计，人工完成
生物进化

所有这些都是agent初始化的内容，但是agent最终表现，都是要靠和environment之间的interaction完成的，这个过程逐渐修正agent的行为，执行在当前环境特异化的操作。

Conclusion

前面的高谈阔论，不过就是做早饭的一个过程，可见，我们获得了如此行动能力，和智慧是多么的复杂和令人惊叹的

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文来自：https://face2ai.com/RL-RSAB-1-2-Examples/转载标明出处

【强化学习】1-1-4 强化学习和人工智能

2018-08-29T15:54:34.000Z

Abstract: 本文主要介绍强化学习现阶段的情况，以及未来的去向的一种预测。
Keywords: modern Reinforcement Learning，现代强化学习，Psychology，心理学，Neuroscience，神经系统科学，mathematics，数学

强化学习和人工智能

现代强化学习 Modern Reinforcement Learning

现在的RL可以很有效的跟其他学科结合产生出一些特定领域非常客观的结果，尤其是在工程和自然科学领域。当然RL也可以在金融等方面有所作为，称为一个有力的工具。

RL在未来一段时间内，会成为AI或者机器学习中的主力，但需要结合一下这些学科的相互扶持，以下列举包括但不限于：

Statistics(统计)
Optimization(优化)
other Mathematics(其他数学)
Psychology(心理学)
Neuroscience(神经系统科学)

说RL是未来的一个倾向是有原因的：

RL最接近任何动物的学习方式
RL的核心算法有很多都是直接来自biological learning system

而且RL可以和生物研究相配合，生物研究可以提供给RL一些数据，而RL可以创建一些reward system的模型。
Psychology和Neuroscience会在14和15章中介绍，而本书主要部分是介绍RL在工程和AI中的相关内容。

弱方法和强方法(Weak or Strong Method)

讲一段历史，1960’s 那段时间，大家认为general principle是扯淡的，根本没这东西，所以没人研究这类算法，他们认为只要数据足够多，就能产生智慧，当然现在来看，他们的看法局限性很大，但是别忘了，后面二十年的结果会导致我们现在的热门研究也有局限性，所以，不要到处鼓吹某项技术能成为永远，包括RL可能就是未来AI中的一个小角色，或者一个雏形，至于CNN什么的，就是个SVM，玩来玩去，其实也就是在没有理论指导下的随机结果。

general principle被认为是weak method，而与此相对的是strong method。

weak方法基于：

search
learning

strong方法基于：

specific knowledge

总结(Conclusion)

介绍了介绍RL的最后一部分，后面基本就开始深入各个分支进行介绍了。
需要指出的是，RL在AI中作用目前不知道有多重要或多不重要,本书作者说：

It is not clear how far back the pendulum will swing, but reinforcement learning research is certainly part of the swing back toward simpler and fewer general principles of artificial intelligence.

这段不翻译了，对于技术科技类的内容：”信”的翻译不能做到 “雅达”,”雅达”的翻译不能做到 “信”

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文来自：https://face2ai.com/RL-RSAB-1-1-4-Reinforcement-Learning/转载标明出处

【强化学习】1-1-3 强化学习基本框架

2018-08-29T15:18:29.000Z

Abstract: 本文简要介绍强化学习的框架，以及框架中几个概念的基本关系
Keywords: agent，real-time，organism，robot，framwork

Reinforcement Learning Framework

上来就把这篇的核心知识点讲出来吧，对于一个RL任务，其框架从总体上分，包括：

agent
agent’s environment

我不知道怎么翻译agent这个词，所以就一直用英文了，代理，或者特工都不太合适，而且我总能想到Agent Hunter。。agent我们已经用了好多次了，到现在都不知道是什么，是算法，还是算法和其他的什么的合集，就像模型一样，可能用了很久都不知道所谓模型，架构到底是什么，而我们在后面会用详细的例子来形容agent是什么。
就像数学分析里面的定义一样，一个限定加命名而已。所以不要过于担心这一点。

Agent

虽然不知道agent到底是什么，有没有枪什么的，但是我们知道他有以下几个特点：

explicit goal(明确的目标)
sense aspect of their environment(对他们的环境敏感)
choose action to influnce their environment(选择action来改变environment)

即使在算法的刚开始，agent没有任何经验，比如对于一个刚学会下棋规则的人来说，他没有任何经验，但是他也要对棋局做出反应，瞎弄都可以，但是你不能楞在那，这是不可以的，agent要对环境做出action，即使是未知环境。

如果包含planning的过程，agent不能一直planning，要平衡planning和real-time之间的关系，还有环境模型如何生成和提升等（这几句话如果不懂，不用急，因为这个是更复杂的RL，后面回头看会好一些）

如果RL包含监督学习的部分，agent还有个任务就是判断哪个监督学习模型的能力强，哪个弱（这个同样是复杂版本的RL，也需要后面的知识来融汇贯通）

还是继续说agent，agent不是我们想象中organism或者robot，就是agent并不是一个完整的有智慧的个体，或者一个器官，agent更像是一个复杂系统中的一个组成部分，比如对于一个完整robot系统，其中一个agent就像是电池系统，负责管理充电程度的，这个agent不和机器人的外部环境直接interact，而是和更大的系统（包含他的那个机器人系统）直接interact。这时候这个agent的environment就是robot所处的大environment，以及robot内部出了自己以外的其他部分。

Conclusion

本文有点小凌乱，介绍了RL的框架，是Agent和他的environment，以及agent的几个小特点，以及environment是什么，总体来说比较抽象，我也不知道为啥这本书开头就给出了这么多没解释的东西，但是可能作者的风格就是让你先猜一下，后面再公布答案。

References

Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

原文来自：https://face2ai.com/RL-RSAB-1-1-3-Reinforcement-Learning/转载标明出处

谭升的博客

一封来自读者的信

【杂文】中美人工智能对比（一篇博人关注的软文）

中美人工智能从业者小调查

几个前提

中美人工智能对比（视觉方向）

对比原理

Google上的对比 —— 横向对比

百度一下，纵向对比中国自己的方向

总结

【强化学习】2.2 行为评价方法(Action-value Methods)

行为评价方法(Action-value Methods)

评价方法和奖励信号的回顾

样本均值(sample-average method)方法

$\varepsilon$-greedy方法

总结

References

【Hexo】Hexo下next主题valine强化版本的改造

Hexo下next主题valine强化版本的改造

使用valine

第一个Bug

增强Valine

简介

快速开始

配置项

高级配置

更新历史

升级 FAQ

LeanCloud 休眠策略

【强化学习】2.1 k臂赌博机(k-armed bandits)问题

k臂赌博机（k-armed bandits）问题

k臂赌博机问题描述

k臂赌博机

数学描述

强化学习解决k臂赌博机问题

总结

References

【强化学习】2.0 多臂赌博机

多臂赌博机

“指导”型反馈和“评价”型反馈

本章重点

总结

References

【Julia】整型和浮点型数字

整型和浮点型数字

整型

typeof

Int 和 UInt

输入类型

16进制(base 16)

2进制，8进制

typemin函数,typemax函数

除法错误

浮点数

常用浮点类型

Float64

Float32

Float16

下划线 ‘_’

0的浮点数

特殊的浮点数

机器精度（eps 函数）

eps(Float)

prevfolat()和nextfloat()函数

“近似” 模型

背景知识和引用

任意准确度数字

数字系数

数值作为系数

加了括号的表达式也可以作为系数

句法争议

“清零” 和 “归一”

Reference

【强化学习】1.6 本章总结、强化学习历史简述

本章总结、强化学习历史简述

总结

强化学习历史

References

【Julia】变量

Julia 变量

`typemin`函数,`typemax`函数

机器精度（`eps` 函数）

`eps(Float)`

`prevfolat()`和`nextfloat()`函数