
搜索
文章平均质量分 82
春文秋武
路延续着崎岖,静静地走着
展开
-
搜索引擎学习-实现
上篇文章介绍了搜索引擎的基本概念,有了大致的认识,本文说下搜索引擎实现上的一些问题。搜索引擎组成抓取系统:负责对互联网信息的搜集,将网页保存到本地,供下游分析、挖掘、建索引使用。分析系统:分析query,查询排序索引系统:整理资源,提取特征检索系统:用户query查找,结果展现离线计算和在线计算为了确保搜索引擎的响应时间和结果质量,在实现上,原创 2014-04-04 15:29:20 · 1314 阅读 · 0 评论 -
Lucene系列-FieldCache
域缓存,加载所有文档中某个特定域的值到内存,便于随机存取该域值。用途及使用场景当用户需要访问各文档中某个域的值时,IndexSearcher.doc(docId)获得Document的所有域值,但访问速度比较慢,而且只能获得Stored域的值。 FieldCache能获得域值数组,根据docId random access域值。FieldCache是高级内部API,通常用户不会直接使用,Lucen原创 2015-10-09 17:46:54 · 2629 阅读 · 1 评论 -
聊聊排名算法
很多网站或应用会提供各样的排行榜,如热门查询、热门应用、最佳文章、论坛评论/文章列表展示等。前段时间做游戏的搜索热词就看了几篇文章,总结记录下。先介绍下流传比较广的算法,再说下我的算法。原创 2015-11-06 11:42:45 · 2113 阅读 · 0 评论 -
Lucene系列-搜索
Lucene搜索的时候就要构造查询语句,本原创 2014-10-24 19:59:15 · 959 阅读 · 0 评论 -
Lucene系列-分析器
搜索的基础是对文本信息进行分析,Lucene的分析工具在org.apache.lucene.analysis包中。原创 2014-10-23 16:48:17 · 1089 阅读 · 0 评论 -
阿里巴巴B2B搜索学习
1.搜索业务主搜索:商品搜索、商家搜索、采购搜索、app搜索行业搜索:淘货源、淘工厂、聚好货、主题市场、品牌馆等2.优势由于用户多,需求强烈,收益大,所以功能、场景、架构做到极致高效。代码复用性强:基础通用功能进行组件抽象化组件通用性好:一些组件或者组件进行组合的服务,适用更多场景,支持更多功能转化效果好:算法做的比较深入、细致3.搜索技术架构架构分为三部分原创 2015-07-31 14:26:09 · 1379 阅读 · 0 评论 -
海量数据搜索的思考
后续完善。背景miui有1亿用户(108),每个用户有1万张相片(104)。从数据量和数据大小两个方面认识下。数据量:共有1012条数据,100台机子存储,每台机子1010条数据(100亿)。数据大小:每个用户的数据占2MB,共2*108MB = 200TB,200台机子存储,每台机子存储1TB。初步印象集群需要机器数量以百衡量;从海量数据中查询想要的结果需要架构分层、数据分治;海量数据的管理原创 2015-06-24 16:37:20 · 925 阅读 · 0 评论 -
Lucene系列-索引文件
本文介绍下lucene生成的索引有哪些文件组成,每个文件包含了什么信息。基于Lucene 4.10.0。数据结构索引(index)包含了存储的文档(document)正排、倒排信息,用于文本搜索。索引又分为多个段(segments),每个新添加的doc都会存到一个新segment中,不同的segments又会合并成一个segment。segment存储着具体的documents,每个doc有一系列的原创 2015-04-24 19:08:39 · 2244 阅读 · 0 评论 -
Lucene系列-facet
1.facet的直观认识facet:面、切面、方面。个人理解就是维度,在满足query的前提下,观察结果在各维度上的分布。如jd上搜“手机”,得到4009个商品。其中品牌、网络、价格就是商品的维度(facet),点击某个品牌或者网络,获取更细分的结果。点击品牌小米,获得小米手机的结果,显示27个。点击移动4G,获得移动4G、小米手机,显示4个。2.fac原创 2015-01-09 15:42:53 · 6262 阅读 · 0 评论 -
搜索引擎学习-概述
定义从互联网上搜索,通过文本匹配,采取一些手段找到最好的信息。结果衡量相关性-结果与query的匹配,结果与用户需求的匹配权威性-结果被引用次数(超链),链接分析时效性-结果对用户是有用新鲜的多样性-根据用户行为返回丰富的结果(苹果?)个性化-地域、用户喜好反spam可以抽象为1个打分公式:score = F(query, doc, user)搜索步骤数据的处理:原创 2014-03-21 16:08:17 · 1783 阅读 · 0 评论 -
Lucene系列-概述
为了生存,就得干一行爱一行。那就学习下luceneb原创 2014-10-11 14:55:56 · 880 阅读 · 0 评论 -
Lucene系列-近实时搜索(1)
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容,介于immediate和eventual之间,在数据比较大、更新较频繁的情况下使用。lucene的nrt可以控制更新生效的间隔时间。基本过程:打开indexwriter从indexwriter中获得indexreader建立indexsearcher查看是否有变化,有变化则建立新read原创 2015-01-20 20:01:33 · 3847 阅读 · 1 评论