我现在主要做的业务是有关实时查询功能相关的,用的最多的就是elasticsearch,前端时间碰到一个特别有趣的问题,跟大家分享一下。
前几天有用户反馈间隔查询的问题,真实的数据在这不方便展示,我就用自己的一个假数据案例给大家还原一下真实场景。
客户A: 我在你们数据库查询标题,“中华 共和国 (间隔2字内)”为什么查不到“中华人民共和国民法通则”这个记录呢?
我:收到,我这边排查一下问题哈。(特别客气的回复)

内心os: 这tm怎么可能呢,明明就是两个字的啊,难道是我写了个bug?
打开我的mac本,开始排查一顿操作,确实是没有,查询结果见下图:

下图为不做间隔查询的结果:

(在此说明一下,我中文分词器用的是ik分词器)
此刻我的内心:

此时开始google,询问我们项目组的大神。一顿讨论下来,难道es为了效率,用的是它分词后的position。
查看“中华人民共和国民法通则”的分词结果:

可以看到“中华”和“共和国”之间按照postion,间隔为4。
然后修改一下我们的查询语句,操作看一下:

居然可以了!!!!
总结一下这个问题:
es的间隔查询是按照分词后下面的postion之间的间隔,这样保证了它的效率。
如果我们使用ik分词的话,这个查询会让我们造成误解,对我们实际的意义不大。
如果我们分词使用的是逐字分词(比如standard),还是不错的。
小编叨逼叨:
脱离业务谈技术都是耍流氓。任何技术都不是完美的,结合业务选择合适的技能负责任的好猿。
探讨了在使用Elasticsearch进行中文间隔查询时遇到的困惑,深入分析了ik分词器与position机制如何影响查询结果,揭示了高效查询背后的秘密。
664

被折叠的 条评论
为什么被折叠?



