2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 机器学习算法——贝叶斯分类器4(半朴素贝叶斯分类器)

机器学习算法——贝叶斯分类器4(半朴素贝叶斯分类器)

时间:2019-01-20 13:44:07

相关推荐

机器学习算法——贝叶斯分类器4(半朴素贝叶斯分类器)

为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立。于是,人们尝试对属性条件独立性假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。

半朴素分类器的基本思想是适当考虑一部分属性间的相互依赖信息,从而既不需进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。“独依赖估计”(One-Dependent Estimator,ODE)是半朴素贝叶斯分类器常用的一种策略。即假设每个属性在类别之外最多仅依赖于一个其它属性,即

其中,为属性xi所依赖的属性,称为xi的父属性。此时,若每个属性xi,若其父属性已知,则可采用类似的式子来估计.

这样问题就转化为如何确定每个属性的父属性,不同的做法会产生不同的独依赖分类器。

SPODE算法是最直接的做法,就是假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性。

TAN算法则是在最大带权生成树算法的基础上,通过以下步骤约简属性间依赖关系。

(1)计算任意两个属性之间的条件互信息

(2)以属性为节点构建完全图,任意两个结点之间边的权重设为

(3)构建此完全图的最大带权生成树,挑选根变量,将边置为有向

(4)加入类别结点y,增加从y到每个属性的有向边。

条件互信息刻画了属性xi和xj在已知类别情况下的相关性。因此,通过最大生成树算法,TAN实际上仅保留了强相关属性之间的依赖性。

AODE算法是一种基于集成学习机制、更为强大的独依赖分类器。它尝试将每个属性作为超父来构建SPODE,然后将那些具有足够训练数据支撑的SPODE集成起来作为最终结果,即

是在第i个属性上取值为的样本集合,为阈值常数。显然AODE需估计和,有

Ni是第i个属性可能的取值数。是类别为c,在第i个属性上取值为xi的样本集合。是类别为c且在第i和第j个属性上取值分别为xi和xj的样本集合。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。