2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 【ML学习笔记】2:机器学习中的数学基础2(琴生不等式 概率公式 统计量)

【ML学习笔记】2:机器学习中的数学基础2(琴生不等式 概率公式 统计量)

时间:2021-03-10 04:09:22

相关推荐

【ML学习笔记】2:机器学习中的数学基础2(琴生不等式 概率公式 统计量)

琴生不等式

下凸函数的一个良好的性质就是满足琴生不等式,因为:

它的加权形式即琴生不等式:

如果将这些权都视为概率,它们加起来为1,那么还能写成数学期望的形式:

f(E(x))<=E(f(x))

也就是说,对于下凸函数,自变量期望的函数值不大于函数值的期望

此外,对于上凸函数,也有类似的性质,只不过不等号要反过来。

概率公式

这三个公式在概率论学过,复习一下。

条件概率

在已知B发生了的基础上,A发生的概率=A发生且B发生的概率/B发生的概率。

全概率公式

这里相当于把条件概率拆开来,下式中的各个Ai两两互斥,而且合起来构成一个完备事件。

贝叶斯公式

上面是共同发生的概率用条件概率公式反向拆分,下面是A发生的概率用全概率公式拆分,整体还是一个条件概率公式。

常见的概率分布

先打张表,用到时候再细查。

概率和统计的关注点

概率

基于已知条件去了解某些细节。

例如,已知有n个次品和m个正品,从中取k个,恰有r个次品的概率。

统计

已经知道总体的情况(未必知道全部,如知道是正态分布却不知道均值和方差),然后抽样以基于样本的值去估计总体(的均值和方差)。

例如,从一堆产品中取出k个,恰有r个次品,去推测产品中有多少次品。

与机器学习的关系

如在有监督学习中,根据训练集(特征1,,特征2,…,特征n,已知标签)去得到一个算法(该算法可以通过特征去预测标签的值),得到这个算法的过程就类似统计的过程(从局部估计整体)。

然后用训练出的这个算法,去对已知特征而未知标签的样本,估计其标签的值,这个过程就类似概率的过程。

在拿到训练集以后,应该先对各个特征的分布进行统计

往往能看出某些特征和某些标签关联性是比较强的,而某些特征却不然。以此就可以对特征进行一些筛选。

统计估计的是分布,机器学习得出的是模型,一个模型可能包含了许多分布。

重要统计量

这些都是描述整体性质的。

[1]期望

离散型:

连续型:

也就是概率加权下的平均值。

期望满足一些性质:

E(c)=c

E(kX)=kE(X)

E(X+Y)=E(X)+E(Y)

[2]方差

也就是每一个样本值和均值的差的平方求和再除以样本数量,写成期望的形式也就是:

Var(X)=E{[X-E(X)]^2}=E(X^2)-E(X)^2

方差满足一些性质:

Var(c)=0

Var(X+c)=Var(X)

Var(kX)=k^2Var(X)

Var(X+Y)=Var(X)+Var(Y)

[3]协方差

协方差用于衡量两个随机变量的线性关系(如果两个随机变量存在非线性关系,协方差评价不出来),方差是协方差的两个变量相同时的情况。

公式中随机变量减去随机变量的期望,实际上就是一个去均值化的过程,这个过程往往是机器学习中常用的预处理的过程。

去均值化后,将这两个向量做了内积,所以协方差可以理解成数据预处理后对应的向量的几何上的内积

协方差满足一些性质:

Cov(X,Y)=Cov(Y,X)

Cov(aX+b,cY+d)=acCov(X,Y)

Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

Cov(XY)=E(XY)-E(X)E(Y)

很多时候,去看每个特征和标签的协方差,如果接近0的话,那么说明它和标签的线性相关性不强,所以协方差可以用来评估线性相关性和用来选择特征。

[4]相关系数

协方差除以X的标准差和Y的标准差的乘积,就是相关系数:

它的几何意义是特征去均值化后的向量的夹角余弦值(高中学过模模分之数量积,也就是两个向量的内积除以两个向量模长之积)。

试想两个特征如果相关系数是1,那就相当于cos值是1,也就是两个去均值化后的向量共线;而如果相关系数是0,说明cos值是0,也就是两个去均值化后的向量垂直(完全没有线性关系)。所以相关系数是评价两个特征线性相关性的一个指标。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。