
搜索引擎
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
基于Trie树实现拼音搜索自动补全
原帖:http://itren.diandian.com/archives/104前言目前大多数提供搜索功能的大型网站,都会对用户输入的拼音进行自动补全,推荐一些用户可能感兴趣的词。由于近期自己做的一个项目也要用到此功能,所以打算亲自分析实现一个自动补全功能。需求分析这类应用应当根据不同的场景单独设计,通用的设计未必好用,不过可以择各家之长,按需所取。我的场景是,数据库中存转载 2013-04-01 17:14:23 · 3296 阅读 · 1 评论 -
跳表SkipList
1.聊一聊跳表作者的其人其事2. 言归正传,跳表简介3. 跳表数据存储模型4. 跳表的代码实现分析5. 论文,代码下载及参考资料 . 聊一聊作者的其人其事 跳表是由William Pugh发明。他在 Communications of the ACM June 1990, 33(6) 668-676 发表了Skip lists: a probabilistic al转载 2013-11-08 17:10:08 · 1088 阅读 · 0 评论 -
基于hadoop创建lucene索引(二)编程模型二
针对上篇提到的问题,我们采用一个新的编程模型来提高程序执行效率。在上篇所述的编程模型里,lucene创建索引的大部分开销集中在了reduce端,受限于reduce个数(因业务需要reduce个数不能随意增加),且索引合并过程完全依赖于磁盘读写速度。由此可找到两个突破口:1.把大部分开销转移到map端,提高并发度。map个数主要取决于集群的规模,集群规模越大,可并发执行的map数越多。这样程序执转载 2013-11-08 12:02:00 · 1453 阅读 · 0 评论 -
基于hadoop创建lucene索引(一)编程模型一
场景:面对10亿级别微博数据进行索引是一个挑战。单机无法在可接受的时间内创建全量索引和增量索引,因此我们采用基于hadoop map-reduce并行计算的方式,实现索引创建、更新。Map-Reduce模型回顾:Hdfs文件读写、lucene索引读写特点: Hdfs是hadoop的分布式文件存储系统。Hdfs为提高集群存储的效率,目前只支持顺序写,不支持随机写,即:只能从文件转载 2013-11-08 12:01:29 · 1855 阅读 · 0 评论 -
binlog增量数据代替Dump DB增量解决方案
背景介绍:试用报告数据在DB底层打通评价数据,报告数据就分散到评价的32个数据库,2048张表里。因为基本的业务需求是打通数据并且将报告接入搜索。为了考虑业务灵活性,选择终搜平台来完成报告的全量和增量。全量模块通过Tsearch基于评价以及IC的云梯表,join做的全量dump。因为增量通过sql的增量方式,会给DB造成很大的压力,尤其是在gmt_modified 没有索引的情况,并且数量级百转载 2013-11-08 11:26:21 · 1356 阅读 · 0 评论 -
淘宝反作弊举报系统
反作弊举报系统 反作弊举报系统主要是用户作弊信息收集。对于作弊严重的卖家,我们将给予全店铺搜索降权或屏蔽处理。通过该系统的举报信息收集,优化作弊商品识别算法,净化淘宝搜索环境,从而给诚信经营的卖家一个更公平竞争的平台,给消费者更好的购物体验。如何举报作弊商品?1. 在淘宝账号登录状态下,搜索你想要的商品,在搜索结果页中,鼠标移动到商品图片上,点击商品图片左上角出现的转载 2013-10-18 13:28:30 · 2749 阅读 · 0 评论 -
如何预测用户query意图
2013-10-13仁重 阿里技术嘉年华 有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。 我回答说,分析之前搜索这个query的用户点了些什么结果啊。 朋友继续问,如果没有用户点击呢。 呃,如果没有点击,这个问题就比较复杂了。整理了下思路,于是写成了本文。主要描述了关于如转载 2013-10-18 13:26:42 · 1318 阅读 · 0 评论 -
国际站反作弊系列之 — 类目错放
2013-08-16 阿里技术嘉年华文/王涛 【导读】本文就反作弊里边的一个大话题:类目错放,进行了一个较为详尽的分析。包括有如何识别类目错放、以及目前识别遇到的问题等。适合想对反作弊有所深入了解的同学阅读。 国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(aliexpress.com), 上转载 2013-10-14 13:13:33 · 2337 阅读 · 0 评论 -
个性化实时计算系统及其应用探索
2013-08-09阿里技术嘉年华作者:腾霄 (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城)一、前言 个性化是搜索技术、计算广告技术以及电子商务领域的一个发展趋势和时髦话题。随着互联网技术的发展,搜索技术越来越为互联网用户所熟悉。但人们已经不满足于一个完全由自己输入而得到返回内容的不聪明的“机器”,人们更希望一个能自动理解、甚至提前猜测自转载 2013-10-14 13:11:35 · 1303 阅读 · 0 评论 -
国际站反作弊系列之 — 反作弊介绍
2013-08-15阿里技术嘉年华文/王涛 【导读】本文将国际站在反作弊方面的经验总结出来,希望给大家一些参考。目前面临的难点分为技术、非技术两个方面。技术方面是如何更好的将机器学习模型实践应用,非技术的方面是网站的整体信息质量并不完善。一、简介 国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(a转载 2013-10-14 13:12:58 · 2050 阅读 · 0 评论 -
Learning to rank在淘宝的应用
2013-08-12阿里技术嘉年华作者:仁重 (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城) 前言 排序中我们需要解决的是什么样的问题?怎么样把用户想要的,好的商品排到前面;怎样调节不同卖家的流量;给质量好,但价格不便宜的商品更多的流量,来引导市场更加规范。需要解决的问题很复杂,但是排序结果好坏难以评判。 对于搜索结果好不好转载 2013-10-14 13:12:06 · 1481 阅读 · 0 评论 -
淘宝搜索算法综述之二:淘宝搜索排序算法的现状
2013-08-01阿里技术嘉年华 作者:青峰 (一淘及搜索事业部-搜索技术-算法技术)淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:1.算法模型当用户输入关键转载 2013-10-12 11:17:28 · 1583 阅读 · 0 评论 -
从概念的角度审视淘宝一淘商品搜索Online系统架构
2013-07-30阿里技术嘉年华 从概念上讲,一淘商品搜索涉及的几个重要名词的关系可以粗略地用上面这张图描述。其中涉及到如下不同层次的术语:类目、一级类目、叶子类目、前后台类目产品节点、SPU、SKU、节点父子关系产品属性、商品属性、类目公共属性、关键属性、导航属性为什么这些概念随着时间的推移逐渐地出现,是因为系转载 2013-10-12 11:12:54 · 2016 阅读 · 0 评论 -
淘宝搜索算法综述之一:淘宝搜索的特点
2013-08-01阿里技术嘉年华 作者:青峰 (一淘及搜索事业部-搜索技术-算法技术)淘宝有十亿商品,挂靠在几千个叶子类目,上百个一级类目,十几个行业下面,如何能让用户快速的找到符合意图的商品,是淘宝搜索需要解决的首要问题。淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方。由于淘宝搜索面对的是站内卖家上传的商品,这些商品转载 2013-10-12 11:16:14 · 2109 阅读 · 0 评论 -
如意淘商品推荐技术介绍之二:高级技术
2013-07-31阿里技术嘉年华 作者:亦飞 (一淘及搜索事业部-搜索技术-算法技术-文本搜索技术)本文将介绍如意淘商品推荐的高级技术,也是我们获得PV点击率翻倍的关键技术,主要是商品聚类、Re-ranking和点击反馈。一、商品聚类 为什么要做商品聚类?不是因为数据稀疏性的问题,上一篇文章中挖掘到的商品数据字典虽只有转载 2013-10-12 11:15:17 · 2441 阅读 · 0 评论 -
如意淘商品推荐技术介绍之一:基础推荐
2013-07-31阿里技术嘉年华 作者:亦飞 (一淘及搜索事业部-搜索技术-算法技术-文本搜索技术) 如意淘商品推荐技术是由一淘搜索北京算法团队支持,去年8月份上线之初,PV点击率即高于数据平台部门(原技术支持方)的30%,经过半年左右的优化,PV点击率实现翻倍。 在项目的实施过程中,我们有以下两点体会:1. 明确问题转载 2013-10-12 11:14:16 · 1951 阅读 · 0 评论 -
Unique索引优化实践(闭哈希表、跳表、分词字典)
Unique索引,有时也称Primary Key索引,顾名思义就是对于这个索引字段每个doc的值都是唯一的,如各种id字段:product id,customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询,最典型的应用场景就是进行附表join查询,即对主表中查到的每一个doc,都在附表中查询其对应的附表doc信息。所以,对这种类型的索引进行优化会转载 2013-11-08 15:26:00 · 1697 阅读 · 0 评论