
搜索技术
傻孩子
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索中一些工程问题
1、 倒排拉链如果很长如何处理(1)倒排拉链的长度是有限制的,这个长度限制是亿级别的,所以一般不会超出,如果真的超出就会截断(2)可能超出长度的是一些停用词,如果超出就会截断,并且停用词在建立倒排的时候,位置信息只建立一个,因为这些词一般无意义只是为了召回,如果位置信息太多,在后续计算proximity score的时候比较耗时,这些需要处理的词是挖掘好的词表2、如何提升索引检索的性能...原创 2019-09-24 17:37:53 · 684 阅读 · 0 评论 -
pagerank 算法
背景pageRank 是Google CEO 拉里佩奇提出的一种算法,来计算互联网里的网站的重要性,以对搜索进行排名。此处为啥算法叫pagerank,因为是以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。所以为了出名,大家努力的,发明个算法,以自己名字来命名的。pagerank 基本思想数量假设:一个页面越被其他页面链接,说明他越重要(ps:难...转载 2019-08-08 10:39:26 · 571 阅读 · 0 评论 -
深度语义模型
导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用,希望给读者带来帮助。1. 背景以搜索引擎和搜索广告为例,最重要的也最难解决的问题是语义相似度,这里主要体现在两...转载 2019-08-01 16:18:27 · 4465 阅读 · 1 评论