农业知识图谱(KG)：农业领域的信息检索命名实体识别关系抽取分类树构建数据挖掘...

向AI转型的程序员都关注了这个号👇👇👇

大数据挖掘DT机器学习公众号：datayx

该课题是由上海市农业委员会信息中心主持，以“致富农民、服务市民、提高行政管理效能”为目标，充分发挥大数据在农业农村发展中的重要功能和巨大潜力，重点建设上海市级农业农村大数据中心，促进信息资源的共建共享和创新应用。

代码，以及项目部署详细方法获取：

关注微信公众号 datayx 然后回复知识图谱即可获取。

项目配置

系统需要安装：

scrapy ---爬虫框架

django ---web框架

neo4j ---图数据库

thulac ---分词、词性标注

py2neo ---python连接neo4j的工具

pyfasttext ---facebook开源的词向量计算框架

pinyin ---获取中文首字母小工具

预训练好的词向量模型wiki.zh.bin（仅部署网站的话不需要下载）

---下载链接：http://s3-us-west-/fasttext-vectors/wiki.zh.zip

mongoDB ---存储文档数据

pymongo ---python操作mongoDB的工具

（以上部分除了neo4j在官网下，wiki.zh.bin在亚马逊s3下载，其它均可直接用pip3 install 安装）

农业实体识别+实体分类

点击实体的超链接，可以跳转到词条页面（词云采用了词向量技术）：

实体查询

实体查询部分，我们能够搜索出与某一实体相关的实体，以及它们之间的关系：

关系查询

关系查询即查询三元组关系entity1-[relation]->entity2 , 分为如下几种情况:

指定第一个实体entity1

指定第二个实体entity2

指定第一个实体entity1和关系relation

指定关系relation和第二个实体entity2

指定第一个实体entity1和第二个实体entity2

指定第一个实体entity1和第二个实体entity2以及关系relation

下图所示，是指定关系relation和第二个实体entity2的查询结果

知识的树形结构

农业知识概览部分，我们能够列出某一农业分类下的词条列表，这些概念以树形结构组织在一起：

农业分类的树形图：

训练集标注

我们还制作了训练集的手动标注页面，每次会随机的跳出一个未标注过的词条。链接：http://localhost:8000/tagging-get , 手动标注的结果会追加到/label_data/labels.txt文件末尾：

我们将这部分做成了小工具，可复用：/qq547276542/LabelMarker

同样的，我们制作了标注关系提取训练集的工具，如下图所示

如果Statement的标签是对的，点击True按钮；否则选择一个关系，或者输入其它关系。若当前句子无法判断，则点击Change One按钮换一条数据。

说明:Statement是/wikidataSpider/TrainDataBaseOnWiki/finalData中train_data.txt中的数据，我们将它转化成json,导入到mongoDB中。标注好的数据同样存在MongoDB中另一个Collection中。

思路

图谱实体获取：

1.根据19000条农业网词条，按照筛法提取名词（分批进行，每2000条1批，每批维护一个不可重集合）

2.将9批词做交集，生成农业词典

3.将词典中的词在互动百科中进行爬取，抛弃不存在的页面，提取页面内容，存到数据库中

4.根据页面内容，提取每一个词条页面的特征，构造相似度的比较方法，使用KNN进行分类

5.最后获取每个词条的所属类别，同时能够剔除不属于农业的无关词条

命名实体识别:

使用thulac工具进行分词，词性标注，命名实体识别（仅人名，地名，机构名）为了识别农业领域特定实体，我们需要：

分词，词性标注，命名实体识别

以识别为命名实体（person，location，organzation）的，若实体库没有，可以标注出来

对于非命名实体部分，采用一定的词组合和词性规则，在O(n)时间扫描所有分词，过滤掉不可能为农业实体的部分（例如动词肯定不是农业实体）

对于剩余词及词组合，匹配知识库中以分好类的实体。如果没有匹配到实体，或者匹配到的实体属于0类（即非实体），则将其过滤掉。

实体的分类算法见下文。

HudongItem

页面分类

分类器：KNN算法

无需表示成向量，比较相似度即可

K值通过网格搜索得到

定义两个页面的相似度sim(p1,p2)：

title之间的词向量的余弦相似度(利用fasttext计算的词向量能够避免out of vocabulary)

2组openType之间的词向量的余弦相似度的平均值

相同的baseInfoKey的IDF值之和（因为‘中文名’这种属性贡献应该比较小）

相同baseInfoKey下baseInfoValue相同的个数

预测一个页面时，由于KNN要将该页面和训练集中所有页面进行比较，因此每次预测的复杂度是O(n)，n为训练集规模。在这个过程中，我们可以统计各个分相似度的IDF值，均值，方差，标准差，然后对4个相似度进行标准化:(x-均值)/方差

上面四个部分的相似度的加权和为最终的两个页面的相似度，权值由向量weight控制，通过10折叠交叉验证+网格搜索得到

Labels：（命名实体的分类）

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加：datayx

长按图片，识别二维码，点关注

农业知识图谱(KG)：农业领域的信息检索 命名实体识别 关系抽取 分类树构建 数据挖掘...