【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK_苏笛南风的博客-CSDN博客知识图谱

【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK_苏笛南风的博客-CSDN博客

本站和网页 https://blog.csdn.net/woluoyifan/article/details/82819609 的作者无关，不对其内容负责。快照谨为网络故障时之索引，不代表被搜索网站的即时页面。

【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK_苏笛南风的博客-CSDN博客
【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK
苏笛南风
于 2018-09-23 02:10:11 发布
870
收藏
分类专栏：
java
文章标签：
elasticsearch
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/woluoyifan/article/details/82819609
版权
java
专栏收录该内容
6 篇文章
0 订阅
订阅专栏
1.分词机制
Elasticsearch对于查询，是采取按分词的结果进行查询的，作为一款非国产的软件，自然对于中文的查询支持并不是很好，默认只会把中文拆分成单字，而通常使用都是以“词”作为基准单位的。
我们可以使用插件（plugins）机制去拓展Elasticsearch的分词器（analyzer）
2.中文分词器-IK
IK是常用的一款中文分词插件
Github地址：https://github.com/medcl/elasticsearch-analysis-ik/
有两种方法安装插件
2.1方法一：直接将插件相关文件放到es的plugins文件夹下
路径示例：
/usr/share/elasticsearch/plguins/ik
2.2方法二：使用es提供的elasticsearch plugin install
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.0/elasticsearch-analysis-ik-6.3.0.zip
其中的6.3.0是es的版本号
3.使用
安装插件后，直接重启es即可自动加载
systemctl stop elasticsearch.service
systemctl start elasticsearch.service
我们创建一个index并在mappings配置中指定分词器为IK
$ curl -X PUT 'localhost:9200/news' -d '
"mappings": {
"new": {
"properties": {
"content": {
"type": "text",
"analyzer": "ik_max_word",
"search_analyzer": "ik_max_word"
}'
以下使用IK上的示例
curl -XPOST http://localhost:9200/news/new/1 -H 'Content-Type:application/json' -d'
{"content":"美国留给伊拉克的是个烂摊子吗"}
curl -XPOST http://localhost:9200/news/new/2 -H 'Content-Type:application/json' -d'
{"content":"公安部：各地校车将享最高路权"}
curl -XPOST http://localhost:9200/news/new/3 -H 'Content-Type:application/json' -d'
{"content":"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}
curl -XPOST http://localhost:9200/news/new/4 -H 'Content-Type:application/json' -d'
{"content":"中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首"}
进行查询
curl -XPOST http://localhost:9200/news/new/_search -H 'Content-Type:application/json' -d'
"query" : { "match" : { "content" : "中国" }},
"highlight" : {
"pre_tags" : ["<tag1>", "<tag2>"],
"post_tags" : ["</tag1>", "</tag2>"],
"fields" : {
"content" : {}
结果：
"took": 14,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 2,
"max_score": 2,
"hits": [
"_index": "index",
"_type": "new",
"_id": "4",
"_score": 2,
"_source": {
"content": "中国驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首"
},
"highlight": {
"content": [
"<tag1>中国</tag1>驻洛杉矶领事馆遭亚裔男子枪击嫌犯已自首 "
},
"_index": "index",
"_type": "new",
"_id": "3",
"_score": 2,
"_source": {
"content": "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"
},
"highlight": {
"content": [
"均每天扣1艘<tag1>中国</tag1>渔船 "
苏笛南风
关注
关注
点赞
收藏
打赏
评论
【Elasticsearch】Elasticsearch 6.x 探索之路-中文分词器IK
1.分词机制Elasticsearch对于查询，是采取按分词的结果进行查询的，作为一款非国产的软件，自然对于中文的查询支持并不是很好，默认只会把中文拆分成单字，而通常使用都是以“词”作为基准单位的。我们可以使用插件（plugins）机制去拓展Elasticsearch的分词器（analyzer）2.中文分词器-IKIK是常用的一款中文分词插件Github地址：https://...
复制链接
扫一扫
专栏目录
ElasticSearch6.6.x从入门到企业开发
05-10
<p>
本课程深入浅出剖析了Elasticsearch的核心基础知识，带着大家一步一步，从快速入门，到理解Elasticsearch的工作原理、内核级原理，再到动手实战操作Elasticsearch的各种核心功能，到最后可以基于Java语言开发基本的搜索和集群搭建。
</p>
<p>
<img src="https://img-bss.csdn.net/201905280649471851.png" alt="" /></p>
ElasticSearch中文IK分词器6.8.3
05-02
ElasticSearch6.8.3中文IK分词，官网下载比较慢，放到这里，压缩包下载后，在plugins目录下新建目录Ik,然后把压缩包复制到ik目录下解压，解压后重启ElasticSearch，如果没有报错就是安装成功啦
参与评论
您还未登录，请先
登录
后发表或查看评论
ElasticSearch中文分词，看这一篇就够了
静待花开
06-03
2万+
本文我们围绕Elasticsearch的分词器，从内置分词器的局限性出发，引出了中文分词器，然后详细介绍了ik分词器的编译，安装配置和使用。
ElasticSearch中文分词
最新发布
weixin_45866849的博客
07-29
238
Elasticsearch模糊查询这么快，是因为采用了倒排索引，而倒排索引的核心就是分词，把text格式的字段按照分词器进行分词并编排索引。
为了发挥自己的优势，Elasticsearch已经提供了多种功能强大的内置分词器。...
Elasticsearch中文分词
静幽水
09-11
681
1、分词api
分词就是把一条文本数据转换为一个个单词的过程，英语分词比较简单，直接使用空格就可以把每个词分开，中文分词相对就会复杂很多，需要使用专门的分词器。
在英文中分词，指定分词器进行分词：
POST http://127.0.0.1:9200/_analyze
"analyzer":"standard",
"text":"Elastic Search"
返回结...
Elasticsearch实现中文分词
cxu123321的博客
05-27
153
Elasticsearch实现中文分词
邵奈一 2019-01-24 11:39:43 2871 收藏 1
展开
教程目录
0x00 教程内容
0x01 默认标准分词效果展示
1. 默认标准分词器的使用
2. 新建一个测试索引
3. 查询及效果展示
0x02 分词插件elasticsearch-analysis-ik
1. 下载插件
2. 启动Elasticsearch
3. 重新创建测试索引
0x03 ik分词效果展示
1. ik_max_word分词
2. ik_smart分词
0xFF 总结
0..
elasticsearch中文分词
热门推荐
胡杰的专栏
12-07
2万+
由于elasticsearch基于lucene，所以天然地就多了许多lucene上的中文分词的支持，比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在elasticsearch上使
用。当然前提是有elasticsearch的插件。至于插件怎么开发，这里有一片文章介绍：
http://log.medcl.net/item/2011/07/diving-i
国产的ORM开源框架火了，网友：真难，想用但不敢用~
公众号-老炮说Java
02-05
683
点击上方蓝色字体，选择“标星公众号”优质文章，第一时间送达关注公众号后台回复pay或mall获取实战项目资料+视频开源地址：https://github.com/braisdom/Obje...
Elasticsearch之中文分词器
一心同学的博客
03-08
1310
讲解中文分词器IK的下载安装以及使用步骤，让我们的开发流程更加流畅、
ElasticSearch 6.5.4 安装中文分词器 IK和pinyiin
vkingnew 的技术博客
12-25
2692
ES的常用的中文分词有基于汉字的ik和基于拼音的pinyin
https://github.com/medcl/elasticsearch-analysis-ik/releases
https://github.com/medcl/elasticsearch-analysis-pinyin
安装的时候主要选择elasticsearch版本一致的插件：
-- ES的版本查询：
# /usr/...
ElasticSearch中文分词（一）
qq_26896085的博客
02-13
152
注：以下的内置分词器只是对中文几乎不适用，了解。下篇记录的IK分词器是在实际开发中使用的
1、什么是分词
分词就是指将一个文本转化成一系列单词的过程，也叫文本分析，在Elasticsearch中称之为Analysis。
举例：我是中国人 --> 我/是/中国人
2、分词api
指定分词器进行分词
POST http://192.168.142.128:9200/_analyze
...
Elasticsearch笔记六之中文分词器及自定义分词器
ty4315的专栏
09-08
1万+
elasticsearch中配置中文分词器以及自定义分词器
elasticsearch6.x ik中文分词集成
baymax_007的博客
10-24
1334
Elasticsearch是一个基于Apache Lucene(TM)的开源、实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析以及将这三者混合使用。IK Analysis插件将Lucene IK分析器集成到elasticsearch中，支持自定义词典。
1. 选择ik版本
IK版本安装是由Elasticsearch版本决定的，如下图所示。
IK版本
ES版本
6...
ElasticSearch 6.x 学习笔记：4.IK分词器插件
程裕强的专栏
01-06
1万+
4.1 elasticsearch-analysis-ik 6.1.1
（1）源码
https://github.com/medcl/elasticsearch-analysis-ik
（2）releases
https://github.com/medcl/elasticsearch-analysis-ik/releases
（3）复制zip地址
https://github...
ElasticSearch6.x插件之IK分词器
LMR的博客
06-11
8378
IK分词器插件下载地址：git地址
1.下载并安装IK插件
首先下载es对应版本的ik分词器的zip包，上传到es服务器上，在es的安装目录下有一个plugins的目录，在这个目录下创建一个叫ik的目录
然后将解压好的内容，拷贝到ik目录
将ik目录拷贝到其他的es节点
重新启动所有的es
2.使用
#创建索引名字叫news
curl -H "Content-Type: applicat...
Elasticsearch 使用中文分词
weixin_34174422的博客
10-12
163
本文演示了如何使用IK Analysis 插件来实现在 Elast...
Elasticsearch之中文分词器插件es-ik（基于es2.4.0版本）
07-06
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时，肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字，当用Kibana作图的时候，按照term来分组，结果一个汉字被分成了一组。这是因为使用了Elasticsearch中默认的标准分词器，这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字，因此引入es之中文的分词器插件es-ik就能解决这个问题。
elasticsearch6.0 中文分词
zhangjie0303的专栏
12-20
3487
软件版本：
elasticsearch-analysis-ik 6.0.0
https://github.com/medcl/elasticsearch-analysis-ik
elasticsearch 6.0.0
https://github.com/elastic/elasticsearch
elasticsearch-head 0.9
https://g
ELASTICSEARCH 6.4.1 分词组件
09-29
ELASTICSEARCH 6.4.1 最好的分词组件，可以加装各种语言包
elasticsearch5.5.1中文分词实践过程（亲测可用）
11-24
elasticsearch5.5.1中文分词实践过程，避免小白使用过程中遇到的弯路和套路。
“相关推荐”对你有帮助么？
非常没帮助
没帮助
一般
有帮助
非常有帮助
提交
©️2022 CSDN
皮肤主题：大白
设计师：CSDN官方博客
返回首页
苏笛南风
CSDN认证博客专家
CSDN认证企业博客
码龄5年
暂无认证
18
原创
15万+
周排名
35万+
总排名
10万+
访问
等级
1082
积分
13
粉丝
32
获赞
22
评论
116
收藏
私信
关注
热门文章
【Spring Boot】Spring Boot 2.x + Spring Security OAuth2 2.3.3 出现 bad client credentials 错误的踩坑记录
29548
基于log4j的通用LogUtil类，避免在每个使用的类中加入Logger logger=LogManger.getLogger()
11269
【转载】一个游戏地图生成的方案
9896
【Servlet】利用 HttpServletRequestWrapper 实现对request body的二次读取，可用于记录日志
9859
阿里云ECS进行ssh时，一段时间不操作就自动断开连接的解决方法
7812
分类专栏
树莓派
Spring Boot / Spring Cloud
5篇
serlvet
1篇
Vue
4篇
ElementUI
1篇
多线程
2篇
数据结构
2篇
游戏开发
2篇
算法分析
3篇
编程规范
2篇
java
6篇
最新评论
【Servlet】利用 HttpServletRequestWrapper 实现对request body的二次读取，可用于记录日志
qq_29886253:
上面的那种解决方案的确不能解决@RequestBody注解的请求
基于log4j的通用LogUtil类，避免在每个使用的类中加入Logger logger=LogManger.getLogger()
hoshifuruyorumo:
这个不行啊，每次打印的都是logutil的路径
基于log4j的通用LogUtil类，避免在每个使用的类中加入Logger logger=LogManger.getLogger()
wuli小明:
调用不一定只有5层，也可能是4层或其它层数
基于log4j的通用LogUtil类，避免在每个使用的类中加入Logger logger=LogManger.getLogger()
wuli小明:
来还愿，补充下打日志的时候可以带出来调用打印方法的行数
[code=java]
// update by wgm 2021年10月3日区分取类名、取行数调用findCaller
if(callStack.length>=5){//外部调用获取类名findCaller
caller = callStack[i + 3];
}else{//外部调用获取行数findCaller
caller = callStack[callStack.length-1];
[/code]
[code=java]
public static void info(String msg) {
//update by wgm 2021年10月3日日志增加行数显示
getLogger().info(findCaller().getLineNumber()+"行,"+msg);
[/code]
阿里云ECS进行ssh时，一段时间不操作就自动断开连接的解决方法
weixin_45691282:
谢谢
您愿意向朋友推荐“博客详情页”吗？
强烈不推荐
不推荐
一般般
推荐
强烈推荐
提交
最新文章
树莓派3B+搭配Buster版本系统进行红外遥控开发
Vue2.x + axios 封装请求api
单硬盘从debain最小安装到OpenMediaVault运行
2020年1篇
2019年3篇
2018年20篇
目录
目录
分类专栏
树莓派
Spring Boot / Spring Cloud
5篇
serlvet
1篇
Vue
4篇
ElementUI
1篇
多线程
2篇
数据结构
2篇
游戏开发
2篇
算法分析
3篇
编程规范
2篇
java
6篇
目录
评论
被折叠的条评论
为什么被折叠?
到【灌水乐园】发言
查看更多评论
打赏作者
苏笛南风
你的鼓励将是我创作的最大动力
¥2
¥4
¥6
¥10
¥20
输入1-500的整数
余额支付
(余额：-- )
扫码支付
扫码支付：¥2
获取中
扫码支付
您的余额不足，请更换扫码支付或充值
打赏作者
实付元
使用余额支付
点击重新获取
扫码支付
钱包余额
抵扣说明：
1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。 2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。
余额充值