搜索引擎
文章平均质量分 95
shenmingik
于现在,对话未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
搜索引擎技术 ——链接分析
文章目录原创 2022-01-03 22:41:38 · 12475 阅读 · 0 评论 -
搜索引擎技术 —— 检索模型
文章目录内容相似性计算框架检索模型的评价检索模型布尔模型向量空间模型文档表示相似性计算特征权重计算TF词频信息计算IDF逆文档频率计算TF*IDF框架概率检索模型二元独立模型二元假设词汇独立性假设因子估算BM25模型内容相似性计算框架判断网页内容是否和用户查询相关,这依赖于搜索引擎所采用的检索模型。目前业界主要有以下几种检索模型:布尔模型、向量空间模型、概率模型、语言模型以及机器学习排序算法。尽管目前检索模型多种多样,但是基本原理皆不变,下图是一个搜索引擎计算内容相似性的框架。当用户输入关键词之后,搜原创 2021-12-14 18:23:23 · 4956 阅读 · 0 评论 -
搜索引擎技术 —— 索引压缩
文章目录前言词典压缩倒排列表压缩一元编码和二进制编码EliasGamma算法前言我们上一篇博客也介绍了,当搜索引擎要响应用户查询的时候,需要把索引加载到内存中。这个过程有两个难点:大量的IO操作庞大的倒排索引结构为了解决这个问题,我们需要对数据量进行压缩,这样这两个问题可以一并得到缓解,这也就是索引压缩。一般来说,倒排索引分为两个结构:单词词典和倒排列表。所以,对索引的压缩也就会分为这两个部分去压缩。词典压缩我们先看这样一种倒排索引的情况,在这种情况下对于单词词典的每个元素我都要留够足够原创 2021-12-12 21:29:37 · 2083 阅读 · 1 评论 -
搜索引擎技术 —— 索引技术
文章目录索引倒排索引单词词典动态索引索引的建立两遍文档遍历法归并法索引搜索引擎的索引其实是实现<关键词,文档>映射的具体的数据结构,其实现方式也是多种多样的:倒排索引、签名文件以及后缀树等等。实验证明倒排索引是最有效的实现方式,同时也是当前搜索引擎广泛应用的索引技术。倒排索引平常我们想要查询一个关键词,最简单的思路肯定是挨个每个文档查看这个文档是否存在这个关键词,这就是建立<文档,关键词>这样映射的索引。详情图示如下,大概解释一下,这里的网页A中假设就是这篇博客,后面跟的是这原创 2021-12-10 16:30:12 · 4051 阅读 · 0 评论 -
搜索引擎技术 —— 网络爬虫
文章目录网络爬虫原理爬虫类型爬虫抓取策略网页更新策略参考文献网络爬虫原理首先,我们来讲讲什么是爬虫。就目前的搜索引擎对象往往都是数以百计的网页,所以搜索引擎面临的主要问题就是如何将这些网页存储到本地。而用来获取这些网页的工具就叫爬虫。我们来看一下一个爬虫框架。首先先人工精选一部分网页作为初始网页放到待抓取URL队列之中,之后爬虫框架开始从这个待抓取URL队列中取出URL,根据这个URL下载网页内容,这个工作一般是由一个叫网页下载器的模块去负责的。下载完网页之后,会做两步工作:解析网页内容,如果网页原创 2021-12-08 17:44:02 · 3494 阅读 · 5 评论
分享