ES中使用IK分词,统计词频!

本文介绍了如何在Elasticsearch(ES)中使用IK分词器进行分词,并展示了如何统计词频。首先,文章讨论了如何在创建索引时全局设置IK分词器,特别提醒对于yyyy-MM-dd HH:mm:ss格式的时间数据,应转换为date或long类型存储。接着,提到了在Kibana中如何调用命令来查询点评内容的分词词频统计,并设置属性为fielddata=true,以及手动创建索引类型和属性的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.查询分词结果

  http://localhost:9200/[索引名]/ _analyze    POST
  {
   "analyzer": "standard",//es默认分析,对英文很好分词,中文全部拆分成单个字进行索引--》IK分词了解一下:ik_smart、ik_max_word
   "text": "晚点"
  }	

2.设置ik分词:
一、即将创建的索引使用全局setting设置ik分词器:

 http://localhost:9200/index  PUT 
 {"settings":{"index":{"analysis.analyzer.default.type":"ik_max_word"}}}

3.对于yyyy-MM-dd HH:mm:ss格式的数据存储[使用date类型,转成long型存储],因为es目前date类型只支持yyyy-MM-dd和2015-01-01T12:10:30Z两种格式,无法存入yyyy-MM-dd HH:mm:ss,lucene底层其实也是格式化成long型存储的,建议选择date类型或者long型存储时间!

4.kibana中调用如下命令:

#查询点评内容分词词频统计

GET socialcontent/words/_search
{  
"size" : 0,  
"aggs" : {   
    "messages" : {   
        "terms" : {   
           "size" : 1000,
           "field" : "content",
            "include" : "[\u4E00-\u9FA5][\u4E00-\u9FA5]",//两个文字的词(可选)
            "exclude" : "女.*"//过滤含有女的(可选)
        }  
    }  
  },
 "highlight": {
 "fields": {
  "desc": {}
  }
 }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值