2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

时间:2020-11-03 16:32:10

相关推荐

31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

31_ElasticSearch 修改IK分词器源码来基于mysql热更新词库

更多干货

分布式实战(干货)spring cloud 实战(干货)mybatis 实战(干货)spring boot 实战(干货)React 入门实战(干货)构建中小型互联网企业架构(干货)python 学习持续更新ElasticSearch 笔记

一、代码地址

已经修改过的支持定期从数据库中提取新词库,来实现热更新。代码:

/csy512889371/learndemo/tree/master/elasticsearch-analysis-ik-5.2.0

二、概述

每次都是在es的扩展词典中,手动添加新词语,很坑

1、每次添加完,都要重启es才能生效,非常麻烦2、es是分布式的,可能有数百个节点,你不能每次都一个一个节点上面去修改

es不停机,直接我们在外部某个地方添加新的词语,es中立即热加载到这些新词语

热更新的方案

1、修改ik分词器源码,然后手动支持从mysql中每隔一定时间,自动加载新的词库2、基于ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新

用第一种方案,第二种,ik git社区官方都不建议采用,觉得不太稳定

1、下载源码

/medcl/elasticsearch-analysis-ik/tree/v5.2.0

ik分词器,是个标准的java maven工程,直接导入eclipse就可以看到源码

2、修改源码

Dictionary类,169行:Dictionary单例类的初始化方法,在这里需要创建一个我们自定义的线程,并且启动它HotDictReloadThread类:就是死循环,不断调用Dictionary.getSingleton().reLoadMainDict(),去重新加载词典Dictionary类,389行:this.loadMySQLExtDict();Dictionary类,683行:this.loadMySQLStopwordDict();

3、mvn package打包代码

target\releases\elasticsearch-analysis-ik-5.2.0.zip

4、解压缩ik压缩包

将mysql驱动jar,放入ik的目录下

5、修改jdbc相关配置

6、重启es

观察日志,日志中就会显示我们打印的那些东西,比如加载了什么配置,加载了什么词语,什么停用词

7、在mysql中添加词库与停用词

8、分词实验,验证热更新生效

相关文章

ElasticSearch 笔记

1_ElasticSearch使用term filter来搜索数据

2_ElasticSearch filter执行原理 bitset机制与caching机制

3_ElasticSearch 基于bool组合多个filter条件来搜索数据

4_ElasticSearch 使用terms搜索多个值

5_ElasticSearch 基于range filter来进行范围过滤

6_ElasticSearch 控制全文检索结果的精准度

7_ElasticSearch term+bool实现的multiword搜索原理

8_基于boost的搜索条件权重控制

9_ElasticSearch 多shard场景下relevance score不准确

10_ElasticSearch dis_max实现best fields策略进行多字段搜索

11_ElasticSearch 基于tie_breaker参数优化dis_max搜索效果

12_ElasticSearch multi_match语法实现dis_max+tie_breaker

13_ElasticSearch multi_match+most fiels策略进行multi-field搜索

14_ElasticSearch 使用most_fields策略进行cross-fields search

15_ElasticSearch copy_to定制组合field进行cross-fields搜索

16_ElasticSearch 使用原生cross-fiels 查询

17_ElasticSearch phrase matching搜索

18_ElasticSearch 基于slop参数实现近似匹配

19_ElasticSearch 使用match和近似匹配实现召回率与精准度的平衡

20_ElasticSearch rescoring机制优化近似匹配搜索的性能

21_ElasticSearch 前缀搜索、通配符搜索、正则搜索

22_ElasticSearch 搜索推荐match_phrase_prefix实现search-time

23_ElsaticSearch 搜索推荐ngram分词机制实现index-time更多干货

24_ElasticSearch TF&IDF算法以及向量空间模型

25_ElasticSearch 揭秘lucene的相关度分数算法

26_ElasticSearch 四种常见的相关度分数优化方法

27_ElasticSearch用function_score自定义相关度分数算法

28_ElasticSearch误拼写时的fuzzy模糊搜索技术

29_ElasticSearchIK中文分词器的安装和使用

30_ElasticSearch IK分词器配置文件 以及自定义词库

ElasticSearchIK中文分词器的安装和使用

日志管理ELK

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。