打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Elasticsearch中文分词
1、ELasticsearch自带的分词器
Elasticsearch内置了很多分词器(analyzers),例如standard(标准分词器)、english(英文分词)和chinese(中文分词)。其中standard就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低。english对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如“the”这个词)等;chinese效果很差。
使用es 自带的分词standard,比如:世界如此之大,会分成世、界、如、此、之、大,这种分词把每个汉字都独立分开来了,这对中文分词就没有意义了。而我们实际上想得到一些词组。
2、第三方中文分词器
有很多不错的第三方中文分词器,可以很好地和ES结合起来使用。在ES中,每种分词器(包括内置的、第三方的)都会有个名称。如果不给出analyzer对应的名称,默认为standard。比较常用的中文分词器是中科院ICTCLAS的smartcn和IKAnanlyzer分词器。在本文中,我们介绍IKAnanlyzer分词器(下面简称ik)在windows下的使用。
1)下载地址
https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.0.0/elasticsearch-analysis-ik-6.0.0.zip
注意:ik版本一定要与es的版本一致,我这里选择的ik6.0.0版本
2)安装
elasticsearch-plugin.bat install
注意:install后面一定要跟ik压缩包所在的路径
3)安装完毕后
安装完成后,在ES的安装目录下的plugins目录下会多了一个analysis-ik目录(内容是ik的zip包解压后根目录下的所有文件,一共是5个jar文件和1个properties配置文件)
另外ES的安装目录下的config目录下多了一个analysis-ik目录(内容是ik的zip包解压后根目录下的config目录下所有文件,用于放置ik的自定义词库)
3、ik中文分词器的使用
ik提供了两个分词器,分别是ik_max_word 和ik_smart
1)ik_max_word
会将文本做最细粒度的拆分,比如会将“世界如此之大”拆分为世界、如此之、如此、之大。
2)ik_smart
会将文本做最粗粒度的拆分,比如会将“世界如此之大”拆分为世界、如此、之大。
语言方法
1039HPrL9
9c6u6适合农村的创业项目「小投资」月入数万元
22932011-05-05 20:11:43
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Elasticsearch分词
ElasticSearch安装ik分词插件
【windows】【消息中间件】【安装】Elasticsearch
hanlp for elasticsearch(基于hanlp的es分词插件)
ElasticSearch(六):IK分词器的安装与使用IK分词器创建索引
Elasticsearch 安装中文分词
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服