2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > python 分词字典的词性_Python 文本挖掘:jieba中文分词和词性标注

python 分词字典的词性_Python 文本挖掘:jieba中文分词和词性标注

时间:2023-06-16 07:29:27

相关推荐

python 分词字典的词性_Python 文本挖掘:jieba中文分词和词性标注

最近NLP新词发现及情感倾向性分类任务,需要用到分词,查找了下,python,jieba分词,貌似用起来还可以,效果也不差,还没在python里试中科院的分词。

jieba 分词:做最好的Python 中文分词组件。

这是结巴分词的目标,我相信它也做到了。操作简单,速度快,精度不错。而且是Python 的库,这样就不用调用

中科院分词ICTCLAS

了。

妈妈再也不用担心我不会分词啦。

jieba 的主页有详细的使用介绍,这里讲一些主页中没提到的。

结巴分词的主要特点是分词之后会形成一个可循环的对象。具体如下:

#! /usr/bin/env python2.7

#coding=utf-8

import jieba

string = '其实大家买手机就是看个心情,没必要比来比去的。'

seg = jieba.cut(string)

print seg #这是一个可循环的对象

for i in seg:

print i,

>>

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt

loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache

loading model cost 4.32799983025 seconds.

Trie has been built succesfully.

其实 大家 买手机 就是 看个 心情 , 没 必要 比来比去 的 。

要把分词的结果展示出来,就需要循环读取该对象的每一个数据(分词后的词),然后存储在数组中。具体如下:

#! /usr/bin/env python2.7

#coding=utf-8

import jieba

string = '其实大家买手机就是看个心情,没必要比来比去的。'

seg = jieba.cut(string)

l = []

for i in seg:

l.append(i)

print l

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt

loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache

loading model cost 3.67199993134 seconds.

Trie has been built succesfully.

[u'\u5176\u5b9e', u'\u5927\u5bb6', u'\u4e70\u624b\u673a', u'\u5c31\u662f', u'\u770b\u4e2a', u'\u5fc3\u60c5', u'\uff0c', u'\u6ca1', u'\u5fc5\u8981', u'\u6bd4\u6765\u6bd4\u53bb', u'\u7684', u'\u3002']

这些u'\u5176\u5b9e'、u'\u5927\u5bb6'等等都是词语的unicode 编码,在print 的时候,print 会自动处理unicode 编码,然后转成我们可以看懂的字,里面的详细原理我也不清楚。。。

p.s. 简单解释一下Trie,jieba 分词前需要建立一个Trie 树字典来帮助其分词。不过Trie 的具体原理我也不太懂。。。

词性标注也一样,只是词性标注多了一个词性。我选择把词语和它的词性作为一个元组加入数组中。具体如下:

#! /usr/bin/env python2.7

#coding=utf-8

import jieba

import jieba.posseg #需要另外加载一个词性标注模块

string = '其实大家买手机就是看个心情,没必要比来比去的。'

seg = jieba.posseg.cut(string)

l = []

for i in seg:

l.append((i.word, i.flag))

print l

>> Building Trie..., from E:\Python27\lib\site-packages\jieba\dict.txt

loading model from cache c:\docume~1\admini~1\locals~1\temp\jieba.cache

loading model cost 2.71900010109 seconds.

Trie has been built succesfully.

[(u'\u5176\u5b9e', 'd'), (u'\u5927\u5bb6', 'n'), (u'\u4e70\u624b\u673a', 'n'), (u'\u5c31\u662f', 'd'), (u'\u770b', 'v'), (u'\u4e2a', 'q'), (u'\u5fc3\u60c5', 'n'), (u'\uff0c', 'x'), (u'\u6ca1', 'v'), (u'\u5fc5\u8981', 'd'), (u'\u6bd4\u6765\u6bd4\u53bb', 'l'), (u'\u7684', 'uj'), (u'\u3002', 'x')]

jieba 的词性标注方式和ICTCLAS的标注方式一样。具体在这篇文章中有介绍:ICTCLAS 汉语词性标注集

比如"n"是名词,“a”是形容词,“v”是动词,“d”是副词,“x”是非语素词等等。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。