【机器学习数学基础】——3 概率论与数理统计

第三章、概率论与数理统计

一、概率论基础1.1 概率论基础1.2 事件与概率1.3 古典概型与几何概型（最简单的概率分布）二、条件概率2.1 条件概率2.2 全概率公式三、概率分布与统计量3.1 概率分布类型3.2 期望与方差3.3 高斯分布四、概率分布进阶4.1 分布函数4.2 均匀分布4.3 指数分布五、联合分布5.1 二维随机变量及联合概率分布5.2 边缘概率六、主成分分析法6.1 多维分布与协方差6.2 主成分分析法

一、概率论基础

1.1 概率论基础

1.1.1、概率论与数理统计定义

我们知道，自然界中的现象可化为为如下两类：

确定性现象：条件完全决定结果，比如太阳东升西落随机性现象：条件不完全决定结果（可能出现这样的结果，也可能出现那样的结果，预先无法断言），比如明天是否下雨

进一步，什么是概率论与数理统计呢？简而言之，二者都是对随机性现象进行研究的数学工具，具体来说如下：

随机性现象：具有不确定性与统计规律性概率论：从数量上研究随机现象的统计规律性的科学数理统计：从应用角度研究处理随机性数据，建立有效的统计方法，进行统计推理

1.1.2、随机试验定义

定义：在概率论中，将具有下述三个特点的试验称为随机试验，简称试验。随机试验常用E表示。

试验的可重复性——在相同条件下可重复进行一次试验结果的随机性——一次试验的可能结果不止一个，且试验之前无法确定具体是哪种结果出现全部试验结果的可知性——所有可能的结果是预先可知的，且每次试验有且仅有一个结果出现

例如：

E1E_1E1抛一枚硬币，观察正面HHH、反面TTT出现的情况

E2E_2E2掷一颗骰子，观察出现的点数

1.1.3 样本空间与样本点的定义

样本空间：试验的所有可能结果所组成的集合称为试验EEE的样本空间,记为Ω\OmegaΩ样本点：试验的每一个可能出现的结果（样本空间中的元素）称为试验EEE的一个样本点,记为ω\omegaω。

例如：

E1E_1E1：抛一枚硬币，观察正面HHH、反面TTT出现的情况；Ω1={H,T}\Omega_1=\{H,T\}Ω1={H,T}

E2E_2E2：掷一颗骰子，观察出现的点数情况；Ω2={1,2,3,4,5,6}\Omega_2=\{1,2,3,4,5,6\}Ω2={1,2,3,4,5,6}

1.2 事件与概率

1.2.1 随机事件/基本事件/复合事件定义

随机事件：样本空间的任意一个子集称为随机事件，简称为事件，记作A,B,CA,B,CA,B,C等

例如，在试验E2E_2E2中，令AAA表示为"出现奇数点"，AAA就是一个随机事件。

基本事件：仅包含一个样本点ω\omegaω的随机事件，即单点子集{ω}\{\omega\}{ω}复合事件：包含两个或两个以上样本的事件

1.2.2 事件的性质和运算

事件的本质是集合，而集合的一切性质和运算都适用于事件。

1.2.3 频率与概率定义

频率：在相同的条件下，进行了nnn次试验，在这nnn次试验中，事件AAA发生的次数nAn_AnA，称为事件AAA发生的频数。比值nAn\frac{n_A}{n}nnA称为事件A发生的频率，并记成fn(A)f_n(A)fn(A)概率：在相同的条件下进行nnn次重复试验，当nnn趋于无穷大时，事件AAA发生的频率fn(A)f_n(A)fn(A)稳定于某个确定的常数ppp，称此常数ppp为事件AAA发生的概率，记作P(A)=pP(A)=pP(A)=p

注：上述概率定义属于频率学派定义，实际上学术界有两种观点，一种是频率学派，一种是贝叶斯学派。

1.2.4 概率的性质

性质1、0≤P(A)≤1,P(ϕ)=00 \le P(A) \le 1, P(\phi)=00≤P(A)≤1,P(ϕ)=0 （任何一个事件概率介于0到1之间，空事件概率为0）性质2、P(Aˉ)=1−P(A)P(\bar{A})=1-P(A)P(Aˉ)=1−P(A)（互补性，任何事件的补事件概率=1−1-1−这个事件的概率）性质3、P(A−B)=P(A)−P(AB)P(A-B)=P(A)-P(AB)P(A−B)=P(A)−P(AB)性质4、对于任意事件A,BA,BA,B，有P(A+B)=P(A)+P(B)−P(AB)P(A+B)=P(A)+P(B)-P(AB)P(A+B)=P(A)+P(B)−P(AB)（加法公式）

例题

例1、设A,BA,BA,B为两个随机事件，P(A)=0.5P(A)=0.5P(A)=0.5，P(AB)=0.8P(AB)=0.8P(AB)=0.8，P(A∪B)=0.3P(A \cup B)=0.3P(A∪B)=0.3，求P(B)P(B)P(B)

答：

∵P(A+B)=P(A)+P(B)−P(AB)\because P(A+B)=P(A)+P(B)-P(AB)∵P(A+B)=P(A)+P(B)−P(AB)

∴P(B)=P(A+B)−P(A)+P(AB)=0.8−0.5+0.3=0.6\therefore P(B)=P(A+B)-P(A)+P(AB)=0.8-0.5+0.3=0.6∴P(B)=P(A+B)−P(A)+P(AB)=0.8−0.5+0.3=0.6

1.3 古典概型与几何概型（最简单的概率分布）

1.3.1 古典概型和几何概型的定义

古典概型：理论上，具有下面两个特点的随机试验的概率模型，称为古典概型（或等可能概型):有限性：基本事件的总数是有限的，换句话说样本空间仅含有有限个样本点等可能性：每个基本事件发生的可能性相同

把有限个样本点推广到无限个样本点的场合，人们引入了几何概型，由此形成了确定概率的另一方法——几何方法

几何概型：若对于一随机试验，具有下面三个特点的概率模型，称为几何概型：每个样本点出现是等可能的样本空间Ω\OmegaΩ所含的样本点个数为无穷多个具有非零的，有限的几何度量，即0<m(Ω)<∞0<m(\Omega)<\infty0<m(Ω)<∞

1.3.2 古典概型和几何概型的计算公式

古典概型的概率计算公式如下：设事件AAA中所含样本点个数为rrr，样本空间Ω\OmegaΩ中样本点总数为nnn，则有：P(A)=rn=A中样本点数Ω中样本点总数=A所包含的基本事件数基本事件总数P(A) = \frac {r} {n} = \frac {A中样本点数} {\Omega中样本点总数} = \frac {A所包含的基本事件数} {基本事件总数} P(A)=nr=Ω中样本点总数A中样本点数=基本事件总数A所包含的基本事件数几何概型的概率计算公式如下：当随机试验的样本空间是某个区域,并且任意一点落在度量(长度,面积,体积)相同的子区域是等可能的,则事件A的概率可定义为：P(A)=m(A)m(Ω)P(A) = \frac{m(A)}{m(\Omega)}P(A)=m(Ω)m(A) 其中，m(Ω)m(\Omega)m(Ω)是样本空间的度量，m(A)m(A)m(A)是构成事件AAA的子区域的度量

例题

例1：从1,2,….9这9个数字中任意取一个数，取后放回，而后再取一数，试求取出的两个数字不同的概率。

答：基本事件总数n=92n=9^2n=92，因为第一次取数有999种可能取法，这是可重复排列问题。设AAA表示“取出的两个数字不同”。AAA包含的基本事件数9∗89*89∗8:因为第一次取数有999中可能取法，为保证两个数不同，第二次取数应从另外的888个数中选取，有888中可能取法，r=9∗8r=9*8r=9∗8，故P(A)=rn=9∗892=89P(A) = \frac{r}{n} = \frac{9*8}{9^2} = \frac{8}{9}P(A)=nr=929∗8=98

二、条件概率

2.1 条件概率

2.1.1 前置定义

在学习条件概率定义之前，我们先介绍以下几个定义：

相互独立：事件AAA发生对事件BBB发生的概率没有影响，则称两事件是相互独立。和事件：事件AAA与BBB至少有一个发生的事件叫做AAA与BBB的和事件，记为A∪BA \cup BA∪B或A+BA + BA+B积事件：事件AAA与BBB都发生的事件叫做AAA与BBB的积事件，记为A∩BA \cap BA∩B或ABABAB互斥：若ABABAB为不可能事件，则说事件AAA与BBB互斥

2.1.2 条件概率定义

一般地，设AAA、BBB为两个事件，且P(A)>0P(A)>0P(A)>0，称：P（B∣A）=P(AB)P(A)P（B|A） = \frac{P(AB)}{P(A)}P（B∣A）=P(A)P(AB)为在事件AAA发生的条件下，事件BBB发生的条件概率P(B∣A)P(B|A)P(B∣A)，读作：AAA发生的条件下，BBB的概率

2.1.3 条件概率的几何意义

P(B∣A)P(B|A)P(B∣A)相当于把AAA看作新的基本事件，求A∩BA \cap BA∩B发生的概率，如下图：

0≤P(B∣A)≤10≤P(B|A)≤10≤P(B∣A)≤1可加性：如果BBB和CCC互斥，那么P[(BUC)∣A]=P(B∣A)+P(C∣A)P[(BUC)|A]=P(B|A)+P(C|A)P[(BUC)∣A]=P(B∣A)+P(C∣A)

2.1.4 乘法公式

乘法公式：若P(B)>0P(B)>0P(B)>0，由条件概率定义，可得：P(AB)=P(B∣A)P(A)=P(A∣B)P(B)P(AB) = P(B|A)P(A) = P(A|B)P(B)P(AB)=P(B∣A)P(A)=P(A∣B)P(B) 上式成为条件事件的乘法公式。此外，若AAA、BBB事件相互独立，那么P(AB)=P(A)P(B)P(AB)=P(A)P(B)P(AB)=P(A)P(B) 条件概率下的链式法则：前一个公式可以推广到设A1,A2,A3,...,AnA_1,A_2,A_3,...,A_nA1,A2,A3,...,An为任意nnn个独立事件，且 P(A1A2…An)>0P(A_1 A_2…A_n)>0P(A1A2…An)>0，则P(A1A2…An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2..An−1)P(A_1 A_2…A_n)=P(A_1)P(A_2|A_1)P(A_3 | A_1 A_2)...P(A_n | A_1 A_2..A_{n-1})P(A1A2…An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2..An−1)那么我们称这个公式是条件概率下的链式法则