
搜索引擎
机器不学习_
深度聚合机器学习、人工智能算法及技术实战
展开
-
query意图识别
训练数据的选择是分类算法最重要的一步,一般对文本的分类预测,可以使用信息增益,卡方,互信息等来作为训练特征。具体问题具体分析,例如使用loglinear算法进行预测,实验证明信息增益来作为特征选择会更加有效,另外也得分析应用的场景,根据需要来选择算法,选择特征.分好类后,对每个类中的文档的排序也可以通过机器学习来进行,如果每个文档有很多标准的特征,每个维度的特征有一定的分数。这个也可以通过机器转载 2014-04-19 20:31:44 · 3929 阅读 · 0 评论 -
query相关搜索词&推荐
当用户输入的query相关搜索结果比较少的时候,可以帮助用户扩展搜索内容,或者搜索结果太多的时候可以帮助用户深入定向搜索. 一般在搜索底部出现: 简单的来说,相关搜索的query,其实也是一种关键词推荐.相关搜索query策略:1.query click即网民输入某个query后,在搜索引擎上点击的url,该数据可以简单表示为query-url的pair.当用户输入不同的query,但是原创 2016-07-07 20:08:31 · 7394 阅读 · 0 评论 -
lucene系列-近实时搜索
Index索引刷新过程:只有Index Writer上的commit操作才会导致ram directory上的数据完全同步到文件。 Index Writer提供了实时获得reader的API,这个调用将导致flush操作,生成新的segment,但不会commit(fsync),从而减少 了IO。新的segment被加入到新生成的reader里。从返回的reader里,可以看到更新。所以,只要每次原创 2016-04-25 14:08:34 · 3056 阅读 · 0 评论 -
lucene系列-facet搜索
facet搜索,方面搜索,电商中使用的非常多.例如 统计field中值的分组分布情况, 只是每个域值中的命中数量.facet搜索主要用于:1.Facet Counting facet域值统计 2.Facet Associations facet域值分类匹配度.描述一个doc属于某一个category的程度. 3.Multiple Facet Requests 了解多个fecet的结果分布原创 2015-11-16 17:06:42 · 2070 阅读 · 0 评论 -
Lucene系列-index弹性扩展
Lucene系列-index扩展Shard与ReplicaShard:index数据分片.当索引数据到达百亿级别的,单份数据索引读取和搜索都是非常耗时间的,即使在用earlytermination的情况下,latency也在100ms左右. 数据分片成shard,可以快速的提高搜索效率.Replica:shard的备份,在搜索QPS较高的时候,Replica可以提供搜索的吞吐量. 一般包含一个p原创 2015-11-19 11:46:46 · 834 阅读 · 0 评论 -
Lucene系列-DocValues
DocValues简介 Lucene索引的存储一般都是以倒排拉链的方式(term-doc), 但是在搜索相关功能处理的时候,如排序,高亮,摘要信息的获取,需要通过文档docid找到相应的正排信息,在Lucene4.0中,引入了一个新字段类型DocValue,是一个以列为主的字段,具有在索引的时候构建的文档到值(document-to-value)的映射.这个方法保证减轻了一些字段缓存的内存要求,并原创 2015-11-16 11:24:14 · 5201 阅读 · 0 评论 -
Lucene系列-Fieldcache
FiledCache介绍 Lucene作为列缓存, 可以获取设置了Filed.Store.Yes上的正排数据信息.通常IndexSearcher.doc(docId)获得Document的所有域值,访问速度比较慢.但是通过FieldCache读取doc的分片信息,速度可以提升很多. 注意:FieldCache并非在存储域中读取,而是在索引域中读取,从而不必构造Document对象,要求此索引域是原创 2015-11-16 13:12:31 · 1596 阅读 · 0 评论 -
相关性
地图搜索相关性:1.query搜索本身的因素考虑 计算query的意图和指向 query和目标区域的匹配程度2.地域相关性 地域特色的考虑 距离远近 地域邻近域的特征描述3.个人用户的行为特征4.相似性用户的特征推荐购物搜索相关性1.产品标题和自身描述等因素(基于内容的)2.价格因素的考虑原创 2014-04-19 20:39:13 · 1231 阅读 · 0 评论 -
什么是需求满足
什么是需求满足1.1 什么是需求满足用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢?用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中…用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个qu转载 2014-04-19 20:33:56 · 4177 阅读 · 0 评论 -
query term weight计算
对query分词后,我们需要对计算query中各个term的权重。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。 举例来说:“荷尔蒙是什么?”如果分词之后直接进行搜索,可能出来的效果并不是很理想,在不能完全匹配的情况下,”什么“ ”是“ 这样的term对query结果干扰很大。 我们人工进行分析,term weighting结果可能是: “什么 0.1,是0原创 2016-07-07 23:55:14 · 9653 阅读 · 1 评论