
搜索
文章平均质量分 73
zkaipmoo
这个作者很懒,什么都没留下…
展开
-
提高coreseek的搜索精度
由于coreseek带的mmseg默认词库只有1w多个字词,搜索出来的结果准确度不是很理想。花了半天找了下搜索引擎相关的资料,现在记录下一些提高搜索精度的方法和步骤:1. 基础词库要足够丰富,因为只有基础词库丰富了,才能谈权重设置。2. 增加相关业务领域的词汇,进一步提升词库量,如果不是做综合搜索,一般都只需要提高自身业务领域的词汇。3. 记录与收集用户搜索,把原创 2013-09-18 17:16:53 · 1445 阅读 · 0 评论 -
coreseek中LibMMsg中文分词
[php] view plaincopymmseg -u unigram.txt 该命令执行后,将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件,将该文件改名为uni.lib,完成词典的构造。需要注意的是,unigram.txt需要预先准备,并且编码格式必须为UTF-8编码在unigram.txt中的格式为:...帮助原创 2013-09-20 17:34:23 · 1246 阅读 · 0 评论 -
数据库同步中间件
背景早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。ps. 目前内部版本已经支持mysql和oracle部分版本的日志解析,当前的can转载 2016-03-23 11:57:29 · 3615 阅读 · 0 评论