Abstract: 集合论基础知识,样本集合
Keywords: Sample set
样本集合
集合论各种数学教材上都有提到,每次都是,“为了理解xx内容,需要一些集合论的基础知识”,比如数学分析,概率论,拓扑学,这几个分支的基础教材一开始都是讲集合论的,我们画的图也把集合论放在了根部的位置
但是要透彻的研究集合论需要数学专业的大牛们继续,我们是研究计算机的,所以有些东西必须要放掉,所以我们这里讲的集合论内容非常基础,而且可能也不那么专业,没办法,我们只能专业于一点,每个点都专业的,目前大部分人做不到。
说到这就想起来了,我们讲的所有这些数学知识都是为了我们的机器学习算法,人工智能算法研究做基础,所以这些数学知识相当之浅显,只推荐CS专业的学生们参考,我尽量写的通俗准确一些,但可能某些话还是不够准确,希望大家多评论,多探讨。
本篇博客主要内容来自钟开莱先生的《初等概率论》,主要研究路径:集合-性质-基础运算-定律法则-高级计算
Sample sets
这个上来就有点偏概率了,因为标题可以翻译为样本集合,说到样本就跟数理统计直接联系到一起了,但是这都无所谓,接下来全是集合的知识了,首先什么是集合,一个班级有3个人-张三,李四,王二麻子-那么这三个人就构成了一个集合,可以用个大括号括起来:
$$
{张三,李四,王二麻子}
$$
是的,上面这就是集合,集合就是一些东西集合在一起,就是集合😆,如果想知道集合的准确数学定义,那么可以自己google一下,其实集合论和概率论非常类似,都是先有了实际应用的定义,后面才有了公理化的定义,我们这篇文章应该说的是朴素集合论,创始人康托尔,于是我想起来了《万万没想到》里的康托尔-伯恩斯坦-施罗德定理,集合论是概率论的重要基础,非常非常重要的基础。
再举个例子,所有素数,这也是个集合,或者一个函数$f(x)$ 的定义域$(a,b)$ 也是一个集合。
那么说完了什么是集合,我们就要研究一下他的性质了:
- 一个东西不能被包含超过一次,比如 ${张三,李四,王二麻子,李四}$ 这就不是一个集合了
- 我们把集合中的每一个member称为一个point(点),整个集合叫做space(空间),为了体现是统计概率类里面的集合,加个修饰词“样本”这样就变成了样本点,和样本空间,这样就更概率了,
- 常用的表示方法,样本空间 $\Omega$ 样本点 $\omega$ ,空集 $\emptyset$ 表示集合中没有元素,集合S中元素的个数 $|S|$ 是一个非负整数,从0开始哦,因为 $|\emptyset|=0$
- 集合必须被well define,也就是说,我们可以明确的知道一个东西是否属于该集合,不能存在模棱两可的元素,于是,这个地方就可能出现悖论,当元素属于集合的时候我们用 $\omega \in S$ 或者反之 $\omega \notin S$
- 关于上面4中提到的明确定义,这个可能会有人来扯皮,比如我们扔三个骰子,可能出现很多组合,但是有人会跟你扯淡,可能一个扔出去以后你找不到了,就变成两个骰子了,哈哈,这种人你让他开门出去,滚蛋就好了,如果数学问题像这样讨论起来就没意思了。
- Well define的方法有两种,一种是穷举-enumerate,或者discribed,比如 $S={1,2,3}$ 这个是个很明确的定义,$4 \notin S$ ,或者 ${x|0<x<4\;and\;x\in \Re }$ 这两种描述方法都是正确的,但要根据情况使用,比如扔6个骰子的组合结果就能写好长,这时候就要用描述的定义方法了
- 子集,subset,对应的是superset,如果集合B中元素都在集合A中那么集合B是集合A的subset,A集合是B集合的superset,表示为 $B\subset A$ 或者 $A\supset B$
- identical,两个集合相等的前提是两个集合中所有元素都相等(集合中顺序一般不被考虑,可以颠倒顺序,因为set这个词本身是一堆的意思,并不是排成一条线,有先有后)相等带来了一个性质 集合A B满足: when $A=B$ we must have $B\subset A$ and $B\supset A$ ;两个集合互为子集(超集)时,两个集合identical,这个性质也可以用来证明集合相等,充分必要条件,而且经常被用来证明两个集合相等。
以上就是集合的几点主要性质,研究完性质后,就要研究研究运算了。
总结
集合基本性质,后面就是运算的相关知识了。