2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > python 情感分析实例_使用python+机器学习方法进行情感分析(详细步骤)

python 情感分析实例_使用python+机器学习方法进行情感分析(详细步骤)

时间:2020-08-04 04:05:53

相关推荐

python 情感分析实例_使用python+机器学习方法进行情感分析(详细步骤)

根据《Python 天然说话处理》的办法,数据可以分为开辟集合测试集。开辟集专门用于赓续调剂和发明最佳的分类算法和特点维度(数量),测试集应当一向保持“不被污染”。在开辟集开辟完毕之后,再应用测试集考验由开辟集肯定的最佳算法和特点维度的效不雅。具体如图:

特点降维说白了就是削减特点的数量。这有两个意义,一个是特点数量削减了之后可以加快算法计算的速度(数量少了当然计算就快了),另一个是如不雅用必定的办法选择信息量丰富的特点,可以削减噪音,有效进步分类的精确率。

所谓信息量丰富,可以看回膳绫擎这个例子“手机异常好用!”,很明显,其实不须要把“手机”,“异常”,“好用”,“!”这4个都当做特点,因为“好用”这么一个词,或者“异常 好用”这么一个双词搭配就已经决定了这个句子是“积极”的。这就是说,“好用”这个词典信息量异常丰富。

那要用什么办法来削减特点数量呢?谜底是经由过程必定的统计办法找到信息量丰富的特点。

综合来看,可以看出特点维数在500 或 1500的时刻,分类器的效不蚜?鲱优的。

在情感分类中,用词频选择特点,也就是选在语料库中出现频率高的词。比如我可以选择语料库中词频最高的2000个词作为特点。用文档频率选特点,是选在语料库的不合文档中出现频率最高的词。而其它三个,太高妒攀冷艳,表示懂得得还不清跋扈,暂且不表。。。

不过意思都是一样的,都是要经由过程某个统计办法选择信息量丰富的特点。特点可所以词,可所以词组合。

四、把语料文本变成应用特点表示。

照样以膳绫擎那句话做例子,“手机异常好用!”如不雅在NLTK 中,如不雅选择所有词作为特点,其情势是如许的:[ {“手机”: True, “异常”: True, “好用”: True, “!”: True} , positive]

如不雅选择双词作为特点,其情势是如许的:[ {“手机 异常”: True, “异常 好用”: True, “好用 !”: True} , positive ]

如不雅选择信息量丰富的词作为特点,其情势是如许的:[ {“好用”: True} , positive ]

(NLTK须要应用字典和数组两个数据类型,True 表示对应的元素是特点。至于为什么要用True 如许的方法,我也不知道。。。反正见到的例子都是如许的。。。有空再研究看是不是可以不如许的吧)

无论应用什么特点选择办法,其情势都是一样的。都是[ {“特点1”: True, “特点2”: True, “特点N”: True, }, 类标签 ]

五、把用特点表示之后的文本分成开辟集和测试集,把开辟集分成练习集和开辟测试集。

机械进修分类必须稀有据给分类算法练习,如许才能获得一个(基于练习数据的)分类器。

有了分类器之后,就须要检测这个分类器的精确度。

图2:开辟集和测试集(摘自《Natural Language Processing with Python》)

一般来说,练习集的数量应当弘远年夜于测试集,如许分类算法才能找出琅绫擎的规律,构建出高效的分类器。

用回前面的例子。假设2000条已经标注了积极和消极的评论数据,开辟集可所以随机的1600条,测试集是残剩的随机400条。然后开辟集中,练习集可所以随机的1400条,开辟测试集是200条。

六、用不合的分类算法给练习集构建分类器,用开辟测试集考验分类器的精确度(选出最佳算法后可声调剂特点的数量来测试精确度)。

直接用最优的分类算法对测试集进行分类,得出分类结不雅。比较分类器的分类结不雅和人工标注的┞俘确结不雅,给出分类器的最终精确度。

这个时刻终于可以应用各类高妒攀冷艳的机械进修算法啦!

我们的目标是:找到最佳的机械进修算法。

可以应用朴实贝叶斯(NaiveBayes),决定计划树(Decision Tree)等NLTK 自带的机械进修办法。也可以更进一步,应用NLTK 的scikit-learn 接口,如许就可声调用scikit-learn 琅绫擎的所有,对,是所有机械进修算法了。我已经不由得的泣如雨下。

其实办法很轻易。只要以下五步。仅仅应用开辟集(Development Set)。

用分类算法练习琅绫擎的练习集(Training Set),得出分类器。

用分类器给开辟测试集分类(Dev-Test Set),得出分类结不雅。

比较分类器给出的分类结不雅和人工标注的┞俘确结不雅,给出分类器的精确度。

应用另一个分类算法,反复以上三步。

在考验完所有算法的分类精确度之后,就可以选出最好的一个分类算法了。

在选出最好的分类算法之后,就可以测试不合的特点维度对分类精确度的影响了。一般来说,特点太少则不足以反竽暌钩分类的所有特点,使得分类精确率低;特点太多则会惹人噪音,干扰分类,也会降低分类精确度。所以,须要赓续的测试特点的数量,如许才可以获得最佳的分类效不雅。

七、选择出开辟集中最佳的分类算法和特点维度,应用测试集考验得出情感分类的精确度。

在终于获得最佳分类算法和特点维度(数量)之后,就可以动用测试集。

scikit-learn 重要负责分类算法,评价分类效不雅,进行分类等义务。

接下来会有四篇文┞仿按照以下步调来实现机械进修的情感分析。特点提取和特点选择(选择最佳特点)

付邮攀类标签,瓜分开辟集和测试集

构建分类器,考验分类精确度,选择最佳分类算法

存储和应用最佳分类器进行分类,分类结不雅为概率值

起首是特点提取和选择

一、特点提取办法

1. 把所有词作为特点推荐阅读

进修怎么在保护 root 暗码的安然性的同时,为可托用户付与所治理的收集功能和特定办事的权限。我比来写了一个简短的 Bash 法度榜样来将 MP3 文件大年夜一台收集主机的 USB 盘中拷贝到另一台收集主机上去。拷贝出来的>>>详细阅读

地址:/lsqh/40229.html

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。