【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK_苏笛南风的博客-CSDN博客


本站和网页 https://blog.csdn.net/woluoyifan/article/details/82819609 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK_苏笛南风的博客-CSDN博客
【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK
苏笛南风
于 2018-09-23 02:10:11 发布
870
收藏
分类专栏:
java
文章标签:
elasticsearch
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/woluoyifan/article/details/82819609
版权
java
专栏收录该内容
6 篇文章
0 订阅
订阅专栏
1.分词机制
Elasticsearch对于查询,是采取按分词的结果进行查询的,作为一款非国产的软件,自然对于中文的查询支持并不是很好,默认只会把中文拆分成单字,而通常使用都是以“词”作为基准单位的。
我们可以使用插件(plugins)机制去拓展Elasticsearch的分词器(analyzer)
2.中文分词器-IK
IK是常用的一款中文分词插件
Github地址:https://github.com/medcl/elasticsearch-analysis-ik/
有两种方法安装插件
2.1方法一:直接将插件相关文件放到es的plugins文件夹下
路径示例:
/usr/share/elasticsearch/plguins/ik
2.2方法二:使用es提供的elasticsearch plugin install
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip
其中的6.3.0是es的版本号
3.使用
安装插件后,直接重启es即可自动加载
systemctl stop elasticsearch.service
systemctl start elasticsearch.service
我们创建一个index并在mappings配置中指定分词器为IK
$ curl -X PUT 'localhost:9200/news' -d '
"mappings": {
"new": {
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}'
以下使用IK上的示例
curl -XPOST http://localhost:9200/news/new/1 -H 'Content-Type:application/json' -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
curl -XPOST http://localhost:9200/news/new/2 -H 'Content-Type:application/json' -d'
{"content":"公安部:各地校车将享最高路权"}
curl -XPOST http://localhost:9200/news/new/3 -H 'Content-Type:application/json' -d'
{"content":"中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"}
curl -XPOST http://localhost:9200/news/new/4 -H 'Content-Type:application/json' -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}
进行查询
curl -XPOST http://localhost:9200/news/new/_search -H 'Content-Type:application/json' -d'
"query" : { "match" : { "content" : "中国" }},
"highlight" : {
"pre_tags" : ["<tag1>", "<tag2>"],
"post_tags" : ["</tag1>", "</tag2>"],
"fields" : {
"content" : {}
结果: 
"took": 14,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 2,
"max_score": 2,
"hits": [
"_index": "index",
"_type": "new",
"_id": "4",
"_score": 2,
"_source": {
"content": "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"
},
"highlight": {
"content": [
"<tag1>中国</tag1>驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首 "
},
"_index": "index",
"_type": "new",
"_id": "3",
"_score": 2,
"_source": {
"content": "中韩渔警冲突调查:韩警平均每天扣1艘中国渔船"
},
"highlight": {
"content": [
"均每天扣1艘<tag1>中国</tag1>渔船 "
苏笛南风
关注
关注
点赞
收藏
打赏
评论
【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK
1.分词机制Elasticsearch对于查询,是采取按分词的结果进行查询的,作为一款非国产的软件,自然对于中文的查询支持并不是很好,默认只会把中文拆分成单字,而通常使用都是以“词”作为基准单位的。我们可以使用插件(plugins)机制去拓展Elasticsearch的分词器(analyzer)2.中文分词器-IKIK是常用的一款中文分词插件Github地址:https://...
复制链接
扫一扫
专栏目录
ElasticSearch6.6.x从入门到企业开发
05-10
<p>
本课程深入浅出剖析了Elasticsearch的核心基础知识,带着大家一步一步,从快速入门,到理解Elasticsearch的工作原理、内核级原理,再到动手实战操作Elasticsearch的各种核心功能,到最后可以基于Java语言开发基本的搜索和集群搭建。
</p>
<p>
<img src="https://img-bss.csdn.net/201905280649471851.png" alt="" /></p>
ElasticSearch中文IK分词器6.8.3
05-02
ElasticSearch6.8.3中文IK分词,官网下载比较慢,放到这里,压缩包下载后,在plugins目录下新建目录Ik,然后把压缩包复制到ik目录下解压,解压后重启ElasticSearch,如果没有报错就是安装成功啦
参与评论
您还未登录,请先
登录
后发表或查看评论
ElasticSearch中文分词,看这一篇就够了
静待花开
06-03
2万+
本文我们围绕Elasticsearch的分词器,从内置分词器的局限性出发,引出了中文分词器,然后详细介绍了ik分词器的编译,安装配置和使用。
ElasticSearch中文分词
最新发布
weixin_45866849的博客
07-29
238
Elasticsearch模糊查询这么快,是因为采用了倒排索引,而倒排索引的核心就是分词,把text格式的字段按照分词器进行分词并编排索引。
为了发挥自己的优势,Elasticsearch已经提供了多种功能强大的内置分词器。...
Elasticsearch中文分词
静幽水
09-11
681
1、分词api
分词就是把一条文本数据转换为一个个单词的过程,英语分词比较简单,直接使用空格就可以把每个词分开,中文分词相对就会复杂很多,需要使用专门的分词器。
在英文中分词,指定分词器进行分词:
POST http://127.0.0.1:9200/_analyze
"analyzer":"standard",
"text":"Elastic Search"
返回结...
Elasticsearch实现中文分词
cxu123321的博客
05-27
153
Elasticsearch实现中文分词
邵奈一 2019-01-24 11:39:43 2871 收藏 1
展开
教程目录
0x00 教程内容
0x01 默认标准分词效果展示
1. 默认标准分词器的使用
2. 新建一个测试索引
3. 查询及效果展示
0x02 分词插件elasticsearch-analysis-ik
1. 下载插件
2. 启动Elasticsearch
3. 重新创建测试索引
0x03 ik分词效果展示
1. ik_max_word分词
2. ik_smart分词
0xFF 总结
0..
elasticsearch中文分词
热门推荐
胡杰的专栏
12-07
2万+
由于elasticsearch基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使
用。当然前提是有elasticsearch的插件。 至于插件怎么开发,这里有一片文章介绍:
http://log.medcl.net/item/2011/07/diving-i
国产的ORM开源框架火了,网友:真难,想用但不敢用~
公众号-老炮说Java
02-05
683
点击上方蓝色字体,选择“标星公众号”优质文章,第一时间送达关注公众号后台回复pay或mall获取实战项目资料+视频开源地址:https://github.com/braisdom/Obje...
Elasticsearch之中文分词器
一心同学的博客
03-08
1310
讲解中文分词器IK的下载安装以及使用步骤,让我们的开发流程更加流畅、
ElasticSearch 6.5.4 安装中文分词器 IK和pinyiin
vkingnew 的技术博客
12-25
2692
ES的常用的中文分词有基于汉字的ik和基于拼音的pinyin
https://github.com/medcl/elasticsearch-analysis-ik/releases
https://github.com/medcl/elasticsearch-analysis-pinyin
安装的时候主要选择elasticsearch版本一致的插件:
-- ES的版本查询:
# /usr/...
ElasticSearch中文分词(一)
qq_26896085的博客
02-13
152
注:以下的内置分词器只是对中文几乎不适用,了解。下篇记录的IK分词器是在实际开发中使用的
1、什么是分词
分词就是指将一个文本转化成一系列单词的过程,也叫文本分析,在Elasticsearch中称之为Analysis。
举例:我是中国人 --> 我/是/中国人
2、分词api
指定分词器进行分词
POST http://192.168.142.128:9200/_analyze
...
Elasticsearch笔记六之中文分词器及自定义分词器
ty4315的专栏
09-08
1万+
elasticsearch中配置中文分词器以及自定义分词器
elasticsearch6.x ik中文分词集成
baymax_007的博客
10-24
1334
Elasticsearch是一个基于Apache Lucene(TM)的开源、实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。IK Analysis插件将Lucene IK分析器集成到elasticsearch中,支持自定义词典。
1. 选择ik版本
IK版本安装是由Elasticsearch版本决定的,如下图所示。
IK版本
ES版本
6...
ElasticSearch 6.x 学习笔记:4.IK分词器插件
程裕强的专栏
01-06
1万+
4.1 elasticsearch-analysis-ik 6.1.1
(1)源码
https://github.com/medcl/elasticsearch-analysis-ik
(2)releases
https://github.com/medcl/elasticsearch-analysis-ik/releases
(3)复制zip地址
https://github...
ElasticSearch6.x插件之IK分词器
LMR的博客
06-11
8378
IK分词器插件下载地址:git地址
1.下载并安装IK插件
首先下载es对应版本的ik分词器的zip包,上传到es服务器上,在es的安装目录下有一个plugins的目录,在这个目录下创建一个叫ik的目录
然后将解压好的内容,拷贝到ik目录
将ik目录拷贝到其他的es节点
重新启动所有的es
2.使用
#创建索引名字叫news
curl -H "Content-Type: applicat...
Elasticsearch 使用中文分词
weixin_34174422的博客
10-12
163
本文演示了如何使用IK Analysis 插件来实现在 Elast...
Elasticsearch之中文分词器插件es-ik(基于es2.4.0版本)
07-06
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组。 这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入es之中文的分词器插件es-ik就能解决这个问题。
elasticsearch6.0 中文分词
zhangjie0303的专栏
12-20
3487
软件版本:
elasticsearch-analysis-ik 6.0.0
https://github.com/medcl/elasticsearch-analysis-ik
elasticsearch 6.0.0
https://github.com/elastic/elasticsearch
elasticsearch-head 0.9
https://g
ELASTICSEARCH 6.4.1 分词组件
09-29
ELASTICSEARCH 6.4.1 最好的分词组件,可以加装各种语言包
elasticsearch5.5.1中文分词实践过程(亲测可用)
11-24
elasticsearch5.5.1中文分词实践过程,避免小白使用过程中遇到的弯路和套路。
“相关推荐”对你有帮助么?
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题:大白
设计师:CSDN官方博客
返回首页
苏笛南风
CSDN认证博客专家
CSDN认证企业博客
码龄5年
暂无认证
18
原创
15万+
周排名
35万+
总排名
10万+
访问
等级
1082
积分
13
粉丝
32
获赞
22
评论
116
收藏
私信
关注
热门文章
【Spring Boot】Spring Boot 2.x + Spring Security OAuth2 2.3.3 出现 bad client credentials 错误的踩坑记录
29548
基于log4j的通用LogUtil类,避免在每个使用的类中加入Logger logger=LogManger.getLogger()
11269
【转载】一个游戏地图生成的方案
9896
【Servlet】利用 HttpServletRequestWrapper 实现对request body的二次读取,可用于记录日志
9859
阿里云ECS进行ssh时,一段时间不操作就自动断开连接的解决方法
7812
分类专栏
树莓派
Spring Boot / Spring Cloud
5篇
serlvet
1篇
Vue
4篇
ElementUI
1篇
多线程
2篇
数据结构
2篇
游戏开发
2篇
算法分析
3篇
编程规范
2篇
java
6篇
最新评论
【Servlet】利用 HttpServletRequestWrapper 实现对request body的二次读取,可用于记录日志
qq_29886253:
上面的那种解决方案的确不能解决@RequestBody注解的请求
基于log4j的通用LogUtil类,避免在每个使用的类中加入Logger logger=LogManger.getLogger()
hoshifuruyorumo:
这个不行啊,每次打印的都是logutil的路径
基于log4j的通用LogUtil类,避免在每个使用的类中加入Logger logger=LogManger.getLogger()
wuli小明:
调用不一定只有5层,也可能是4层或其它层数
基于log4j的通用LogUtil类,避免在每个使用的类中加入Logger logger=LogManger.getLogger()
wuli小明:
来还愿,补充下打日志的时候可以带出来调用打印方法的行数
[code=java]
// update by wgm 2021年10月3日 区分取类名、取行数调用findCaller
if(callStack.length>=5){//外部调用获取类名findCaller
caller = callStack[i + 3];
}else{//外部调用获取行数findCaller
caller = callStack[callStack.length-1];
[/code]
[code=java]
public static void info(String msg) {
//update by wgm 2021年10月3日 日志增加行数显示
getLogger().info(findCaller().getLineNumber()+"行,"+msg);
[/code]
阿里云ECS进行ssh时,一段时间不操作就自动断开连接的解决方法
weixin_45691282:
谢谢
您愿意向朋友推荐“博客详情页”吗?
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
树莓派3B+搭配Buster版本系统进行红外遥控开发
Vue2.x + axios 封装请求api
单硬盘从debain最小安装到OpenMediaVault运行
2020年1篇
2019年3篇
2018年20篇
目录
目录
分类专栏
树莓派
Spring Boot / Spring Cloud
5篇
serlvet
1篇
Vue
4篇
ElementUI
1篇
多线程
2篇
数据结构
2篇
游戏开发
2篇
算法分析
3篇
编程规范
2篇
java
6篇
目录
评论
被折叠的 条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
苏笛南风
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付
您的余额不足,请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明:
1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。
余额充值