python 情感分析实例_使用python+机器学习方法进行情感分析(详细步骤)

根据《Python 天然说话处理》的办法，数据可以分为开辟集合测试集。开辟集专门用于赓续调剂和发明最佳的分类算法和特点维度(数量)，测试集应当一向保持“不被污染”。在开辟集开辟完毕之后，再应用测试集考验由开辟集肯定的最佳算法和特点维度的效不雅。具体如图：

特点降维说白了就是削减特点的数量。这有两个意义，一个是特点数量削减了之后可以加快算法计算的速度(数量少了当然计算就快了)，另一个是如不雅用必定的办法选择信息量丰富的特点，可以削减噪音，有效进步分类的精确率。

所谓信息量丰富，可以看回膳绫擎这个例子“手机异常好用!”，很明显，其实不须要把“手机”，“异常”，“好用”，“!”这4个都当做特点，因为“好用”这么一个词，或者“异常好用”这么一个双词搭配就已经决定了这个句子是“积极”的。这就是说，“好用”这个词典信息量异常丰富。

那要用什么办法来削减特点数量呢?谜底是经由过程必定的统计办法找到信息量丰富的特点。

综合来看，可以看出特点维数在500 或 1500的时刻，分类器的效不蚜?鲱优的。

在情感分类中，用词频选择特点，也就是选在语料库中出现频率高的词。比如我可以选择语料库中词频最高的2000个词作为特点。用文档频率选特点，是选在语料库的不合文档中出现频率最高的词。而其它三个，太高妒攀冷艳，表示懂得得还不清跋扈，暂且不表。。。

不过意思都是一样的，都是要经由过程某个统计办法选择信息量丰富的特点。特点可所以词，可所以词组合。

四、把语料文本变成应用特点表示。

照样以膳绫擎那句话做例子，“手机异常好用!”如不雅在NLTK 中，如不雅选择所有词作为特点，其情势是如许的：[ {“手机”: True, “异常”: True, “好用”: True, “!”: True} , positive]

如不雅选择双词作为特点，其情势是如许的：[ {“手机异常”: True, “异常好用”: True, “好用 !”: True} , positive ]

如不雅选择信息量丰富的词作为特点，其情势是如许的：[ {“好用”: True} , positive ]

(NLTK须要应用字典和数组两个数据类型，True 表示对应的元素是特点。至于为什么要用True 如许的方法，我也不知道。。。反正见到的例子都是如许的。。。有空再研究看是不是可以不如许的吧)

无论应用什么特点选择办法，其情势都是一样的。都是[ {“特点1”: True, “特点2”: True, “特点N”: True, }, 类标签 ]

五、把用特点表示之后的文本分成开辟集和测试集，把开辟集分成练习集和开辟测试集。

机械进修分类必须稀有据给分类算法练习，如许才能获得一个(基于练习数据的)分类器。

有了分类器之后，就须要检测这个分类器的精确度。

图2：开辟集和测试集(摘自《Natural Language Processing with Python》)

一般来说，练习集的数量应当弘远年夜于测试集，如许分类算法才能找出琅绫擎的规律，构建出高效的分类器。

用回前面的例子。假设2000条已经标注了积极和消极的评论数据，开辟集可所以随机的1600条，测试集是残剩的随机400条。然后开辟集中，练习集可所以随机的1400条，开辟测试集是200条。

六、用不合的分类算法给练习集构建分类器，用开辟测试集考验分类器的精确度(选出最佳算法后可声调剂特点的数量来测试精确度)。

直接用最优的分类算法对测试集进行分类，得出分类结不雅。比较分类器的分类结不雅和人工标注的┞俘确结不雅，给出分类器的最终精确度。

这个时刻终于可以应用各类高妒攀冷艳的机械进修算法啦!

我们的目标是：找到最佳的机械进修算法。

可以应用朴实贝叶斯(NaiveBayes)，决定计划树(Decision Tree)等NLTK 自带的机械进修办法。也可以更进一步，应用NLTK 的scikit-learn 接口，如许就可声调用scikit-learn 琅绫擎的所有，对，是所有机械进修算法了。我已经不由得的泣如雨下。

其实办法很轻易。只要以下五步。仅仅应用开辟集(Development Set)。

用分类算法练习琅绫擎的练习集(Training Set)，得出分类器。

用分类器给开辟测试集分类(Dev-Test Set)，得出分类结不雅。

比较分类器给出的分类结不雅和人工标注的┞俘确结不雅，给出分类器的精确度。

应用另一个分类算法，反复以上三步。

在考验完所有算法的分类精确度之后，就可以选出最好的一个分类算法了。

在选出最好的分类算法之后，就可以测试不合的特点维度对分类精确度的影响了。一般来说，特点太少则不足以反竽暌钩分类的所有特点，使得分类精确率低;特点太多则会惹人噪音，干扰分类，也会降低分类精确度。所以，须要赓续的测试特点的数量，如许才可以获得最佳的分类效不雅。

七、选择出开辟集中最佳的分类算法和特点维度，应用测试集考验得出情感分类的精确度。

在终于获得最佳分类算法和特点维度(数量)之后，就可以动用测试集。

scikit-learn 重要负责分类算法，评价分类效不雅，进行分类等义务。

接下来会有四篇文┞仿按照以下步调来实现机械进修的情感分析。特点提取和特点选择(选择最佳特点)

付邮攀类标签，瓜分开辟集和测试集

构建分类器，考验分类精确度，选择最佳分类算法

存储和应用最佳分类器进行分类，分类结不雅为概率值

起首是特点提取和选择

一、特点提取办法

1. 把所有词作为特点推荐阅读

进修怎么在保护 root 暗码的安然性的同时，为可托用户付与所治理的收集功能和特定办事的权限。我比来写了一个简短的 Bash 法度榜样来将 MP3 文件大年夜一台收集主机的 USB 盘中拷贝到另一台收集主机上去。拷贝出来的>>>详细阅读

地址：/lsqh/40229.html