2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 机器学习基础-概率和统计基本概念

机器学习基础-概率和统计基本概念

时间:2024-02-18 17:53:02

相关推荐

机器学习基础-概率和统计基本概念

记录概率和统计相关的概念和基础知识

总体来说

概率统计是互逆的:

概率根据数据生成的过程进行建模,研究某种模型产生的数据有什么特性,

统计学正好相反,通过已知的数据,来推导产生这些数据的模型是怎样的

概率:是描述可能性的一个数值

随机变量:描述事件可能出现的所有状态,分为离散随机变量和连续随机变量

概率分布:描述每种状态出现的可能性,随机变量X表示小球的颜色,100个球中红色20个,蓝色40个,绿色40个,红色概率为20%,蓝色40%,绿色40%,一组X的值就可以构成变量X的概率分布P(X)

联合概率:上边的小球有大小之分用Y表示,大的50个,小的50个,小的和红色的概率成为联合概率P(X,Y)

边缘概率:通过联合概率P(X,Y)在Y上求和,就可以得到P(X),这个p(X)为边缘概率,把联合概率转换为非联合概率,从p(x,y)到p(x),祛除了我们不关心的Y事件

条件概率:多个随机变量的情况下,100个小球,红色的有50个,红色的中有10个是大球,大球有40个,红球中出现大球的概率为10/50,大球中出现红球的概率为10/40

概率论:研究的就是这些概率之间转化的关系,比如联合概率,条件概率,边缘概率.

通过这些关系产生了贝叶斯定理,加上变量的独立性构建朴素贝叶斯分类算法

基于概率发展来的信息论,提出了许多重要的概率,信息熵,信息增益,基尼指数,决策树

标准化不同取值范围的特征,让他们具有可比性: 很多时候,不同的值需要有不同的权重来影响最终的结果,使用标准化可以达到这个目的

离散型随机变量:如投掷硬币

离散分布:包含伯努利分布,分类分布,二项分布,泊松分布

伯努利分布:单个随机变量的分布,变量取值只有两个0和1,通过λ去区分,抛硬币就是这个分布,如下图

分类分布:伯努利分布的一般形式

正态分布:也叫高斯分布,非常符合客观规律,用的最多的

期望值:每次随机结果出现的概率乘以其结果总和,离散分布加和即可,连续型的随机变量需要使用积分,形象话的就是算二维坐标里的面积

联合概率:由多个随机变量决定的概率叫做联合概率,它的概率分布就是联合概率分布

对于离散型随机变量,通过联合概率P(x,y)在y上求和,就可以得到P(x)对于连续型随机变量,通过联合概率P(x,y)在y上求积分,就可以推到出p(x)这个时候称p(x)为边缘概率

条件概率:也是由多个随机变量决定,和联合概率不同的是,他计算了给定某个随机变量的情况下,另一个或多个随机变量出现的概率,给定x,y出现的概率P(y|x)

概率,条件概率,联合概率间的关系

贝叶斯定理: 一个非常神奇的定理,分类算法中使用非常多

p(y|x)是给定x后y的概率,统计学中,将p(y|x)写作似然函数L(x|y),概率指的是已经知道模型的参数来预测结果,似然函数是根据观测到的结果数据,来预估模型参数;

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。