
搜索引擎
xiewenbo
互联网广告行业呆过几年,旅游公司呆过几年,对机器学习,自然语言处理,图像识别,个性化推荐 有兴趣
展开
-
搜索-Query Understanding (QU)
往简单来讲,用户输入了搜索词,系统通过搜索词找到与搜索词相关的商品集合,系统通过用户及商品的情况进行排序,最终展现给用户。0.找不到但是在构建搜索系统的初期总是无法精准地帮助用户找到想要的商品主要原因有以下几点:不同的用户对同一种诉求的表达往往是有差别的,往往会存在一种比较常见的现象,用户输入的query并不能清晰准确的表达需求。这一块是可以通过较好的产品设计及实时反馈来做精确需求...转载 2020-01-08 10:26:49 · 1907 阅读 · 0 评论 -
搜索-Query Rewrite (QR)
1. 为什么需要QR查询改写,即 Query Rewrite,主要解决的问题是用户的搜索 Query 和 被搜索的文档 不显式匹配。Query和Doc/Item有Semantic Gap,Query是用户端语言,Doc/Item是商户/平台端语言,风格和词汇都不一样。e.g. Query端是“通马桶”、“剪头”,Doc端是“管道疏通”、“理发”。Semantic Match是一种解决方...转载 2020-01-07 23:43:03 · 739 阅读 · 0 评论 -
搜索-Query理解(全)
Query 模块:纠错 分词 紧密度 同义词 词权重 实体词识别 意图识别长尾 query 的多样性对于搜索系统来说是一个很大的挑战,原因有:❶存在输入错误。例如上图中的错误 query "塞尔维雅" ( 塞尔维亚 ),对于这种错误我们希望系统能够自动的纠错;❷存在表达冗余。例如输入 "孙子兵法智慧的现代意义",在这个语境下,"智慧" 是一个无关紧要的词。如果强制去匹...转载 2020-01-06 17:39:08 · 7622 阅读 · 3 评论 -
How to use Lucene DocValues
http://makble.com/how-to-use-lucene-docvaluesLucene's main data structure is inverted index, a big hashmap which use the term as the key and document list as the value. It's very good at searching b...转载 2018-11-28 17:14:32 · 267 阅读 · 0 评论 -
lucene 自定义排序
Lucene提供了一套强大的API来帮助我们实现自定义排序,本节我们使用一个距离搜索的例子来阐述: 其实核心是换一个comparator就成,而这个排序器用在哪里呢,如下所示:package custom;import java.io.IOException;import org.apache.lucene.search.FieldComparator;import org.apa...转载 2018-11-28 17:13:18 · 453 阅读 · 0 评论 -
检索问答模型
前言检索回答系统一般过程:1)构建好候选回答索引集,2)收到quary后,初步选出一些候选回答,3)quary和回答做matching,然后reranking,4)最后返回topk个回答.排序reranking根据不同任务类型有不同方法.matching操作有如下模型使用:1. DSSM( Deep Structured Semantic Models ) 深度结构语义模型 ...转载 2018-11-26 17:42:11 · 273 阅读 · 0 评论 -
用一个大家都懂的方式来聊聊 YouTube 基于深度神经网络的推荐系统
用一个大家都懂的方式来聊聊YouTube基于深度神经网络的推荐系统1前言YouTube的推荐系统是是世界上规模最大、最复杂的推荐系统之一。最近Google的研究人员公布了他们投到今年ACM会议的一篇文章,详细介绍了他们最近利用深度神经网络实现YouTube推荐系统的技术细节。相关会议也会将于本月15号至19号在美国波士顿召开。2应用背转载 2016-10-18 20:30:02 · 3261 阅读 · 0 评论 -
谷歌怎样给搜索结果排序?
refer to : http://www.guokr.com/article/65304/9 月 27 日谷歌推出新款doodle,庆祝自己 13 岁生日。在这个世界上,谷歌几乎无人不晓了。但鲜为人知的是,在13年前,拉里•佩奇( Larry Page )和谢尔盖•布林( Sergey Brin )正是依靠先进的算法发家并创立谷歌的。在这个世界上最自由和创新公司的生日里,来听听死理性转载 2014-06-13 15:30:36 · 996 阅读 · 0 评论 -
run simple pageRank on Hadoop
简单的pageRank实现参考:http://wlh0706-163-com.iteye.com/blog/1397694较为复杂的PR值计算以及在hadoop上的实现:http://deathspeeder.is-programmer.com/posts/31349.htmlpageRank算法的基本思想是:网页的热门程度依赖指向它的网页的热门程度。也许google当初的转载 2014-06-12 21:48:17 · 639 阅读 · 0 评论 -
LinkedIn公司实现的实时搜索引擎Zoie
Zoie是linkedin公司基于Lucene实现的实时搜索引擎系统,按照其官方wiki的描述为:http://snaprojects.jira.com/wiki/display/ZOIE/OverviewZoie is a realtime indexing and search system, and as such needs to have relatively close转载 2014-06-04 15:48:35 · 666 阅读 · 0 评论 -
*Nutch 1.3 学习笔记3-1 Inject CrawlDB Reader
上次我们分析了Inject的整个流程,其中说到了Inject的输出格式是MapSequenceFileOutputFormat,这个格式可以使用一个叫CrawlDbReader的工具来读取和分析。下面我们就来分析一下这个工具有哪些用。1. CrawlDbReader工具的使用方法 在命令行中运行bin/nutch readdb后就可以看到其帮助,实际上这个shell方法调用的正转载 2014-02-16 17:23:25 · 487 阅读 · 0 评论 -
Nutch 1.3 学习笔记
http://blog.youkuaiyun.com/amuseme_lu/article/category/330217转载 2014-02-15 23:30:49 · 574 阅读 · 0 评论 -
Nutch 1.3 学习笔记2
1. Nutch 1.3 运行命令的一些介绍 要看Nutch的命令说明,可执行如下命令bin/nutch [html] view plaincopy Usage: nutch [-core] COMMAND where COMMAND is one of: crawl one-step转载 2014-02-15 23:34:44 · 630 阅读 · 0 评论 -
*** Nutch 1.3 学习笔记3 - Inject
1. Inject是干嘛的?在Nutch中Inject是用来把文本格式的url列表注入到抓取数据库中,一般是用来引导系统的初始化。这里的文本格式如下:[html] view plaincopyhttp://www.nutch.org/ \t nutch.score=10 \t nutch.fetchInterval=2592000 \t us转载 2014-02-15 23:38:38 · 526 阅读 · 0 评论 -
Nutch 1.3 学习笔记1
[-]Nutch是什么在哪里要可以下载到最新的Nutch如何配置Nutch对下载后的压缩包进行解压然后cd HOMEnutch-13runtimelocal配置binnutch这个文件的权限使用chmod x binnutch 配置JAVA_HOME使用export JAVA_HOMEPATH抓取前要做什么准备工作建立一个地址目录mkdir -p urls然后运行如下命转载 2014-02-15 23:33:43 · 548 阅读 · 0 评论 -
Lucene学习笔记
最近研究学习Lucene中,基本上是用到了项目中,下面是一些笔记,比较零碎,主要是参考JavaEye上面的一些文章。 我下载的是 Lucene 2.4.1 版本,在开始之前,我们先来看下,不同版本之间的区别: 1.x,2.0和2.4是有一些区别的比如说:1Java代码//1.x IndexWriter write转载 2012-12-26 11:01:02 · 603 阅读 · 0 评论 -
Nutch 使用总结
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch使用方法简介: http://blog.youkuaiyun.com/pengpengfly/archive/2008/09/29/2994664.aspxnutch1.2 eclipse tomcat6.0 配置:http://hi.baidu.com/oliv转载 2012-05-21 15:06:11 · 923 阅读 · 0 评论 -
一致性 hash 算法( consistent hashing )
最近在研究cassandra,dynamo,bigtable等no sql数据库,其中的partition算法基于consistent hashing实现添加/删除节点主机时的单调性,以及各个主机之间的loadbalance。什么是consistent hashing(一致性哈希)?我觉得这篇文章写的很好!原文地址:http://blog.youkuaiyun.com/sparkliang/a转载 2012-05-16 19:01:46 · 645 阅读 · 0 评论 -
8 个基于 Lucene 的开源搜索引擎
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出8种基于Lucene的搜索引擎,你可以想象他们有多么强大...Apache SolrSolr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高转载 2012-04-26 13:00:37 · 517 阅读 · 0 评论