2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 张志华-统计机器学习-概率论导论

张志华-统计机器学习-概率论导论

时间:2020-06-24 11:43:35

相关推荐

张志华-统计机器学习-概率论导论

统计机器学习-概率论导论

文章目录

统计机器学习-概率论导论一. 复习二. 参数方法和非参数方法三. 测度空间的建立

本节内容延续第一节的内容,进行简短回顾,并对概率论中概率测度相关知识进行介绍。

一. 复习

在采用贝叶斯派的方法进行参数估计(parameter estimate)过程中,对某个统计模型中的参数θ进行估计时,我们首先对θ的分布进行了人为的限定,如符合高斯分布Gamma分布Beta分布

由贝叶斯公式: P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X , θ ) P(\theta|X) =\frac{P(X|\theta)P(\theta)}{P(X, \theta)} P(θ∣X)=P(X,θ)P(X∣θ)P(θ)​可知,若使P(θ|X)得到最大值,需得到等式右侧的三个概率,再进一步计算得到θ的期望E[θ]

观察等式右侧,首先先验P(θ)人为限定。限定θ分布后,似然P(X|θ)可得到表达式。然而,位于分母部分的联合分布P(X, θ)的计算在实践中往往出现困难。对分母部分(上一节我提到可对该边缘似然进行积分,但实际情况往往无法积分得到)常采用抽样的方法进行估计,所用方法即如雷贯耳的马尔科夫链蒙特卡洛(Markov Chain Monte Carlo,MCMC)。

二. 参数方法和非参数方法

在进行统计学入门时,大家往往会遇到两类统计学假设检验方法,即参数方法(parametric)和非参数(nonparametric)方法。

简单来讲,参数方法即有明确的固定数量的参数,而非参数方法则是根据训练数据集中数据的不同,可能具有不同数量的参数,而非没有参数

比如:

在进行logistic regression时,根据sigmoid function的形式:

h ( θ ) = 1 1 + e − X T θ h(\theta)=\frac{1}{1 + e^{-X^{T}\theta}} h(θ)=1+e−XTθ1​

参数向量θ数量为1,不会因为X中数据条目的增加而发生改变。该方法即为参数方法。

然而,

在K近邻算法中,每当更新聚类中心(cluster centroid)时,都需要计算与当前数据集中各个点的距离,那么该算法的参数可认为与样本点的个数相同。因此,该方法为非参数方法。

最后需要说明,参数方法和非参数方法往往重叠,即参数方法若无法应用时,可以采用非参数方法进行假设检验、区间估计等。

三. 测度空间的建立

概率论经苏联的伟大数学家柯尔莫哥洛夫的公理化后,至今已经成为了重要的数学分支。近年的菲尔兹奖也多次奖励给高等概率论相关方向的数学家。

在学习统计机器学习过程中,并不需要大量应用公理化概率论的相关方法,但每个学习者都应该了解相关的知识,当后期处理一些较复杂的问题时,有相应数学知识的支持帮助很大。

下面逐步介绍本节课程中老师介绍的概率论相关知识:

样本空间(sample space)事件(event):样本空间就是所有试验(trial)结果构成的集合,常表示为Ω;事件则是样本空间的一个子集(subset),即

A i ⊆ Ω A_{i} \subseteq \Omega Ai​⊆Ω

进一步我们给出以下定理(事件列):

若Ai为单调递增的事件列,则有:

A 1 ⊆ A 2 ⊆ . . . ⊆ A n A_{1} \subseteq A_{2} \subseteq ... \subseteq A_{n} A1​⊆A2​⊆...⊆An​

单调递增事件列的极限有:

lim ⁡ n → ∞ A n = ⋃ i = 1 ∞ A i \lim_{n\to \infty}A_{n} = \bigcup_{i=1}^{\infty}A_{i} n→∞lim​An​=i=1⋃∞​Ai​

同理,单调递减事件列也采用类似方法构造。

为什么我们要构造以上的单增和单减事件列?

事实上,在一般应用概率论知识时,我们并不需要考虑极限情况下的概率问题,甚至往往针对某个事件,我们可以明确地计算出其发生的概率大小。

然而,如果真正面对一个极其复杂的概率问题时,我们还是否可以计算?比如如下问题:

李明约张芳在公园见面,张芳会在第二天的早8点到8点半之间到达,在该时段内,每时每刻其到达的可能性均相同。那么张芳在8点15分13秒到14秒之间到达公园的概率是多少?继续缩小时段,在8点15分13.1秒到8点15分13.2秒之间到达的概率是多少?这个时段无限缩小下去,在什么情况下概率无法计算?

可见,仅根据当前的知识,上述问题(3)完全无法回答。为了处理概率论不严谨的问题,以集合论为基础的现代概率论诞生。而上述介绍的事件列,在集合论中即为集合列,构造单调递增或递减序列,进而处理极限问题是从数学分析到概率论的一贯通用方法。

介绍至此,我们有了处理“事件列”的工具。然而,“事件”似乎仍没有被良好定义。例如,张芳在某一时刻到达公园是否是一个事件?我们的样本空间是8点到8点半这一个时段,从中取出一个点,应当构成一个事件,那么为什么这个事件的概率为0(这个还没有说明,不过某时刻到达的概率确实为0)?于是,数学家继续结合集合论和实分析的方法,对概率空间进行了定义。下面我们逐步介绍。

σ域(σ-field)

σ域(或称σ代数)由样本空间Ω生成。对于σ域有如下定义:

A 为 σ − f i e l d \mathcal{A}为\sigma-field A为σ−field i.f.f. 以下三条:

ϕ ∈ A ( 1 ) I f A ∈ A ⇒ A c ∈ A ( 2 ) I f A i ∈ A ⇒ ⋃ i = 1 ∞ A i ∈ A ( 3 ) \begin{aligned} \phi \in \mathcal{A} \qquad\qquad\qquad(1) \\ If \ A \in \mathcal{A}\ \quad \Rightarrow\quad \ A^{c} \in \mathcal{A}\qquad(2) \\ If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcup_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(3) \end{aligned} ϕ∈A(1)IfA∈A⇒Ac∈A(2)IfAi​∈A⇒i=1⋃∞​Ai​∈A(3)​

由De Morgan律和以上第2、3条性质,由可列可加性进一步导出:

I f A i ∈ A ⇒ ⋂ i = 1 ∞ A i ∈ A ( 4 ) If \ A_{i} \in \mathcal{A}\quad \Rightarrow \quad\bigcap_{i=1}^{\infty}A_{i} \in \mathcal{A} \qquad(4) IfAi​∈A⇒i=1⋂∞​Ai​∈A(4)在定义了σ-域后,我们得到了可测空间 ( Ω , A ) (\Omega, \mathcal{A}) (Ω,A),至此还有点摸不到头脑,但构造可测空间的目的是让处于某个 ( Ω , A i ) (\Omega, \mathcal{A_{i}}) (Ω,Ai​)中的事件 A j ( ∈ A i ) A_{j}(\in\mathcal{A_{i}}) Aj​(∈Ai​),都可以采用某种度量方法进行度量,上文中所提到的事件是否可以计算概率也就获得了解决的可能性。

于是,最后一步也就呼之欲出了,即:用怎样的度量方法,对事件进行度量

测度(measure)

当有可测空间 ( Ω , A ) (\Omega, \mathcal{A}) (Ω,A)后,可进一步定义测度,其满足下列三条性质:

μ ( A i ) ∈ [ 0 , ∞ ) ( 1 ) μ ( ϕ ) = 0 ( 2 ) I f A i ∩ A j = 0 w . r . t ∀ i ≠ j ⇒ μ ( ∩ A i ) = Σ μ ( A i ) ( 3 ) \begin{aligned} \mu (A_{i}) \in [0, \infty)\qquad (1)\\ \mu (\phi) = 0 \qquad \qquad (2) \\ If \quad A_{i} \cap A_{j} = 0 \quad w.r.t \quad \forall i \neq j \qquad \quad \\ \Rightarrow \mu (\cap A_{i}) = \Sigma \mu (A_{i}) \qquad (3) \end{aligned} μ(Ai​)∈[0,∞)(1)μ(ϕ)=0(2)IfAi​∩Aj​=0w.r.t∀i​=j⇒μ(∩Ai​)=Σμ(Ai​)(3)​

上述第三条即著名的“可列可加性”。

至此,得以构造出三元结构 ( Ω , A , μ ) (\Omega, \mathcal{A}, \mu) (Ω,A,μ),为测度空间。因此,通过测度,我们可将任一事件映射到一实数值。

进一步,若 μ ( A i ) ∈ [ 0 , 1 ] \mu(A_{i})\in[0, 1] μ(Ai​)∈[0,1], 我们将其称为概率测度,即任一事件都可映射到为0~1之间的一个实数值,也就是我们常见的概率大小。概率测度常用P(·)表示。

此外,该节还举例了Borel集、勒贝格测度、计数测度等知识。可自行学习,不影响之后的课程。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。