张志华-统计机器学习-概率论导论

统计机器学习-概率论导论

文章目录

统计机器学习-概率论导论一. 复习二. 参数方法和非参数方法三. 测度空间的建立

本节内容延续第一节的内容，进行简短回顾，并对概率论中概率测度相关知识进行介绍。

一. 复习

在采用贝叶斯派的方法进行参数估计（parameter estimate）过程中，对某个统计模型中的参数θ进行估计时，我们首先对θ的分布进行了人为的限定，如符合高斯分布、Gamma分布或Beta分布。

由贝叶斯公式： P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X , θ ) P(\theta|X) =\frac{P(X|\theta)P(\theta)}{P(X, \theta)} P(θ∣X)=P(X,θ)P(X∣θ)P(θ)可知，若使P(θ|X)得到最大值，需得到等式右侧的三个概率，再进一步计算得到θ的期望E[θ]。

观察等式右侧，首先先验P(θ)人为限定。限定θ分布后，似然P(X|θ)可得到表达式。然而，位于分母部分的联合分布P(X, θ)的计算在实践中往往出现困难。对分母部分（上一节我提到可对该边缘似然进行积分，但实际情况往往无法积分得到）常采用抽样的方法进行估计，所用方法即如雷贯耳的马尔科夫链蒙特卡洛（Markov Chain Monte Carlo，MCMC）。

二. 参数方法和非参数方法

在进行统计学入门时，大家往往会遇到两类统计学假设检验方法，即参数方法（parametric）和非参数（nonparametric）方法。

简单来讲，参数方法即有明确的固定数量的参数，而非参数方法则是根据训练数据集中数据的不同，可能具有不同数量的参数，而非没有参数。

比如：

在进行logistic regression时，根据sigmoid function的形式：
h ( θ ) = 1 1 + e − X T θ h(\theta)=\frac{1}{1 + e^{-X^{T}\theta}} h(θ)=1+e−XTθ1
参数向量θ数量为1，不会因为X中数据条目的增加而发生改变。该方法即为参数方法。

然而，

在K近邻算法中，每当更新聚类中心(cluster centroid)时，都需要计算与当前数据集中各个点的距离，那么该算法的参数可认为与样本点的个数相同。因此，该方法为非参数方法。

最后需要说明，参数方法和非参数方法往往重叠，即参数方法若无法应用时，可以采用非参数方法进行假设检验、区间估计等。

三. 测度空间的建立

概率论经苏联的伟大数学家柯尔莫哥洛夫的公理化后，至今已经成为了重要的数学分支。近年的菲尔兹奖也多次奖励给高等概率论相关方向的数学家。

在学习统计机器学习过程中，并不需要大量应用公理化概率论的相关方法，但每个学习者都应该了解相关的知识，当后期处理一些较复杂的问题时，有相应数学知识的支持帮助很大。

下面逐步介绍本节课程中老师介绍的概率论相关知识：

样本空间（sample space）和事件（event）：样本空间就是所有试验（trial）结果构成的集合，常表示为Ω；事件则是样本空间的一个子集（subset），即

A i ⊆ Ω A_{i} \subseteq \Omega Ai⊆Ω

进一步我们给出以下定理（事件列）：

若Ai为单调递增的事件列，则有：
A 1 ⊆ A 2 ⊆ . . . ⊆ A n A_{1} \subseteq A_{2} \subseteq ... \subseteq A_{n} A1⊆A2⊆...⊆An
单调递增事件列的极限有：
lim ⁡ n → ∞ A n = ⋃ i = 1 ∞ A i \lim_{n\to \infty}A_{n} = \bigcup_{i=1}^{\infty}A_{i} n→∞limAn=i=1⋃∞Ai
同理，单调递减事件列也采用类似方法构造。

为什么我们要构造以上的单增和单减事件列？

事实上，在一般应用概率论知识时，我们并不需要考虑极限情况下的概率问题，甚至往往针对某个事件，我们可以明确地计算出其发生的概率大小。

然而，如果真正面对一个极其复杂的概率问题时，我们还是否可以计算？比如如下问题：

李明约张芳在公园见面，张芳会在第二天的早8点到8点半之间到达，在该时段内，每时每刻其到达的可能性均相同。那么张芳在8点15分13秒到14秒之间到达公园的概率是多少？继续缩小时段，在8点15分13.1秒到8点15分13.2秒之间到达的概率是多少？这个时段无限缩小下去，在什么情况下概率无法计算？

可见，仅根据当前的知识，上述问题（3）完全无法回答。为了处理概率论不严谨的问题，以集合论为基础的现代概率论诞生。而上述介绍的事件列，在集合论中即为集合列，构造单调递增或递减序列，进而处理极限问题是从数学分析到概率论的一贯通用方法。

介绍至此，我们有了处理“事件列”的工具。然而，“事件”似乎仍没有被良好定义。例如，张芳在某一时刻到达公园是否是一个事件？我们的样本空间是8点到8点半这一个时段，从中取出一个点，应当构成一个事件，那么为什么这个事件的概率为0（这个还没有说明，不过某时刻到达的概率确实为0）？于是，数学家继续结合集合论和实分析的方法，对概率空间进行了定义。下面我们逐步介绍。

σ域（σ-field）

σ域（或称σ代数）由样本空间Ω生成。对于σ域有如下定义：

A 为 σ − f i e l d \mathcal{A}为\sigma-field A为σ−field i.f.f. 以下三条：

ϕ ∈ A ( 1 ) I f A ∈ A ⇒ A c ∈ A ( 2 ) I f A i ∈ A ⇒ ⋃ i = 1 ∞ A i ∈ A ( 3 ) \begin{aligned} \phi \in \mathcal{A} \qquad\qquad\qquad(1) \\ If \ A \in \mathcal{A}\ \quad \Rightarrow\quad \ A^{c} \in \mathcal{A}\qquad(2) \\ If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcup_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(3) \end{aligned} ϕ∈A(1)IfA∈A⇒Ac∈A(2)IfAi∈A⇒i=1⋃∞Ai∈A(3)

由De Morgan律和以上第2、3条性质，由可列可加性进一步导出：

I f A i ∈ A ⇒ ⋂ i = 1 ∞ A i ∈ A ( 4 ) If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcap_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(4) IfAi∈A⇒i=1⋂∞Ai∈A(4)在定义了σ-域后，我们得到了可测空间 ( Ω , A ) (\Omega, \mathcal{A}) (Ω,A)，至此还有点摸不到头脑，但构造可测空间的目的是让处于某个 ( Ω , A i ) (\Omega, \mathcal{A_{i}}) (Ω,Ai)中的事件 A j ( ∈ A i ) A_{j}(\in\mathcal{A_{i}}) Aj(∈Ai)，都可以采用某种度量方法进行度量，上文中所提到的事件是否可以计算概率也就获得了解决的可能性。

于是，最后一步也就呼之欲出了，即：用怎样的度量方法，对事件进行度量？

测度（measure）

当有可测空间 ( Ω , A ) (\Omega, \mathcal{A}) (Ω,A)后，可进一步定义测度，其满足下列三条性质：

μ ( A i ) ∈ [ 0 , ∞ ) ( 1 ) μ ( ϕ ) = 0 ( 2 ) I f A i ∩ A j = 0 w . r . t ∀ i ≠ j ⇒ μ ( ∩ A i ) = Σ μ ( A i ) ( 3 ) \begin{aligned} \mu (A_{i}) \in [0, \infty)\qquad (1)\\ \mu (\phi) = 0 \qquad \qquad (2) \\ If \quad A_{i} \cap A_{j} = 0 \quad w.r.t \quad \forall i \neq j \qquad \quad \\ \Rightarrow \mu (\cap A_{i}) = \Sigma \mu (A_{i}) \qquad (3) \end{aligned} μ(Ai)∈[0,∞)(1)μ(ϕ)=0(2)IfAi∩Aj=0w.r.t∀i=j⇒μ(∩Ai)=Σμ(Ai)(3)

上述第三条即著名的“可列可加性”。

至此，得以构造出三元结构 ( Ω , A , μ ) (\Omega, \mathcal{A}, \mu) (Ω,A,μ)，为测度空间。因此，通过测度，我们可将任一事件映射到一实数值。

进一步，若 μ ( A i ) ∈ [ 0 , 1 ] \mu(A_{i})\in[0, 1] μ(Ai)∈[0,1], 我们将其称为概率测度，即任一事件都可映射到为0~1之间的一个实数值，也就是我们常见的概率大小。概率测度常用P(·)表示。

此外，该节还举例了Borel集、勒贝格测度、计数测度等知识。可自行学习，不影响之后的课程。