
搜索引擎
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
lucene.net 查询与添加索引的同步问题
Lucene.Net 遵循以下规则:1. 允许任意多的读操作并发,即任意数量用户可同时对同一索引做检索操作。2. 即便正在进行索引修改操作(索引优化、添加文档、删除文档),依然允许任意多的检索操作并发执行。3. 不允许并发修改操作,也就是说同一时间只允许一个索引修改操作。不过添加索引会耗用大量cpu资源 搜索的时候可以更新索引。但是不能马上生效。如果要马上生效,必须要重原创 2008-03-21 09:59:00 · 3229 阅读 · 0 评论 -
搜索引擎算法之同义词、近义词、上位词挖掘
在搜索引擎中,我们会碰到大量的同义词需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,同义词分成好几类: 1. 品牌同义词:nokia=诺基亚,Adidas=阿迪达斯 2. 产品同义词:投影仪≈投影机,电话≈cell phone;automobile 和car。 3.旧词和新词:自行车 -> 脚踏车 4...原创 2019-03-14 09:19:58 · 11868 阅读 · 0 评论 -
搜索引擎算法之Query Similarity (query relevance、查询的相似性或相关性)
目录介绍: 一、计算相似性的方法很多,最简单是是根据字面的编辑距离来计算相似性。例如: 二、更近一步,很自然想到搜索点击的结果来计算两个Query的相似性。 三、当然我们也可以借助协同过滤的方法,把query和点击item作为一个评分矩阵,按照协同过滤的方法来计算相关性。 四、由于点击数据受到搜索结果的影响,由于排序质量的问题,点击的位置...原创 2019-01-06 13:54:48 · 7532 阅读 · 2 评论 -
搜索引擎算法之 Query Tagging
《Using Search-Logs to Improve Query Tagging》,google论文https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/38276.pdf根据搜索查询语料来标注词性标签。基于统计的方法来做。搜索:budget rent a car搜...原创 2019-01-05 14:35:34 · 1141 阅读 · 0 评论 -
搜索引擎算法之 Query Analysis
在搜索引擎的算法优化中,Query分析有相当多的论文,其中主题包括:Query的类目预测。例如搜索“运动鞋”,可能包括:男士运动鞋、女士运动鞋、儿童运动鞋等类目,预测Query所在的类目对提高搜索结果的相关性非常重要。如果能够识别用户或者意图是男性还是女性,搜索结果又可以去掉很多不相关的类目。 Query的相关性计算。用于下拉补全词推荐、相关词推荐。不过补全词和相关词推荐在产品上是不...原创 2019-01-05 14:05:56 · 2261 阅读 · 0 评论 -
ES增加3个雇员的文档
curl -XPUT 'localhost:9200/megacorp/employee/1' -d '{"first_name" : "John","last_name" : "Smith","age" : 25,"about" : "I love to go rock climbing","interests": [ "sports&q原创 2018-02-08 20:14:43 · 552 阅读 · 0 评论 -
solr实战问题集合
solr部署到ubuntu系统,当dash修改为bash,SOLR会莫名其妙的崩溃。换回bash之后就好了。原创 2015-10-30 14:21:35 · 1988 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。原创 2012-04-18 18:31:21 · 903 阅读 · 0 评论 -
震惊!-- 优快云对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前googl原创 2012-03-15 20:00:09 · 1358 阅读 · 4 评论 -
搜索引擎算法之查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法,...原创 2012-03-13 08:45:53 · 9914 阅读 · 2 评论 -
Random Walks on the Click Graph
这是一篇微软剑桥研究院的文章。在搜索引擎领域,有几大公司和研究院产出了大量论文。论文最多的是“yahoo ! research”,其次可能就是 mircosoft Research和google research。在国内,搜狗实验室靠近清华,因此有大量的清华学生也写了很多论文。以此对比的是,百度、qq、阿里却很少产出相应的论文。或者是他们的论文,我没有读到吧。 基于有向图原创 2012-03-29 09:40:07 · 3169 阅读 · 0 评论 -
Hadoop分布式应用框架
(1)HDFS实现google的文件系统(2)并实现google的mapreduce系统。作为Hadoop程序员,他要做的事情就是: 1、定义Mapper,处理输入的Key-Value对,输出中间结果。 2、定义Reducer,可选,对中间结果进行规约,输出最终结果。 3、定义InputFormat 和OutputFormat,可选,InputFormat将每行输入文件原创 2008-10-05 16:44:00 · 834 阅读 · 0 评论 -
完成迅雷搜索网站需要哪些工作
1、 搜索服务器程序。(1) 分词程序。中文,英文分词程序。由于许多软件的名称可能是中文,英文还有数字,一个好的分词程序对查询效果起到至关重要的作用。评:中文分词程序非常多,中科院的分词程序是一个非常好的开源工具。但是根据需要,一般还是需要自己的分词程序。(2) 索引查询。考虑索引放在多个服务器,多台服务器完成搜索任务。实时的更新多个服务器上面的索引应原创 2008-05-15 14:57:00 · 971 阅读 · 0 评论 -
百度 google的垂直搜索
我们发现在百度、google这样的搜索引擎里面,其实已经包含了垂直搜索的概念。 1、 天气 在百度中搜索天气将为出现你的ip所在的城市的天气。Google没有直接返回。2、 股票在google中搜索“五粮液 股票”,出现的是:000858 - 五粮液 (深圳交易所)谷歌财经 新浪财经 搜狐证券 网易财经 和讯 东方财富原创 2008-04-29 13:13:00 · 1573 阅读 · 0 评论 -
搜索引擎算法之关键词类目预测
在搜索算法中,关键词类目是非常重要的一个话题,是搜索排序中的一个重要模块。搜索排序可以可以简单的分成几个模块:文本相关性、质量分、转化率。文本相关性可以由粗到细分解为类目相关性、属性相关性、语义相关性几个部分。本文重点解析一下类目相关性。例如用户搜索“连衣裙”,最相关的类目是“女装-连衣裙”、“童装-连衣裙”。而其他类目中包含连衣裙就不是那么相关,例如帽子类目的商品“适合沙滩连衣裙的帽子”。所...原创 2019-04-29 13:48:29 · 3959 阅读 · 0 评论