自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 数据库范式

规范化理论1.数据依赖数据依赖是一个关系内部属性和属性之间的一种约束。这种约束关系是通过属性间值的相等与否体现出来的一种关联关系,是现实语义的体现。其类型包括函数依赖(Function Dependency,FD)和多值依赖(Multi-Valued Dependency,MVD)。什么是函数依赖?比如描述一个学生关系,可以有学号(Sno)、姓名(Sname)、系别(...

2019-09-15 11:22:00 245

转载 倒排索引

索引是计算机科学领域中非常常用的数据结构,比如数据库中的索引。索引的目的就是为了加快查找速度,具体到搜索引擎中,索引更是扮演了非常重要的角色,面对海量的网页内容,如何快速找到包含用户查询关键词的所有网页呢?——这其中就用到了倒排索引!什么是倒排索引?如何建立倒排索引表?倒排索引表有什么作用?......在回答这些问题之前,先要了解一下“单词-文档矩阵”的概念。...

2019-09-14 21:42:00 356

转载 最短编辑距离

场景在搜索引擎项目中,我用到了最短编辑距离算法,用于对用户输入的查询进行纠错,从而优化查询结果。比如说,我们在输入英文单词的时候,由于疏忽或者记忆不准确,会有拼写错误的情况。以单词beautiful 为例,假设我们在搜索引擎中输入beauitful(我故意拼错了),看看会发生什么。如下图所示,虽然我把这个单词拼错了,但是查询结果提示“including results fo...

2019-09-13 22:22:00 271

转载 向量空间模型(Vector Space Model)

搜索结果排序是搜索引擎最核心的构成部分,很大程度上决定了搜索引擎的质量好坏。虽然搜索引擎在实际结果排序时考虑了上百个相关因子,但最重要的因素还是用户查询与网页内容的相关性。(ps:百度最臭名朝著的“竞价排名”策略,就是在搜索结果排序时,把广告客户给钱最多的排在前列,而不是从内容质量考虑,从而严重影响了用户体验)。这里要讲的就是:给定用户搜索词,如何从内容相关性的角度对网页进行排序。判断网...

2019-09-13 16:36:00 1129

转载 TF-IDF算法与余弦相似性

(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html)今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(co...

2019-09-11 21:33:00 1157

转载 TF-IDF算法之关键词提取

(注:本文转载自阮一峰老师的博文,原文地址:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html)这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘...

2019-09-11 20:58:00 441

转载 网页去重之Simhash算法

Simhash算法是Google应用在网页去重中的一个常用算法,在开始讲解Simhash之前,首先需要了解:什么是网页去重?为什么要进行网页去重?如何进行网页去重,其基本框架是什么?网页去重,顾名思义,就是过滤掉重复的网页。统计结果表明,近似重复网页的数量占网页总数量的比例较高,即互联网上有很多的页面内容是完全一样的或是近似一样的(这个不难理解,比如对于某一事件的新闻报道,很多...

2019-09-11 16:54:00 545

转载 为什么选择B+树作为数据库索引结构?

背景首先,来谈谈B树。为什么要使用B树?我们需要明白以下两个事实:【事实1】不同容量的存储器,访问速度差异悬殊。以磁盘和内存为例,访问磁盘的时间大概是ms级的,访问内存的时间大概是ns级的。有个形象的比喻,若一次内存访问需要1秒,则一次外存访问需要1天。所以,现在的存储系统,都是分级组织的。最常用的数据尽可能放在更高层、更小的存储器中,只有在当前层找不到,才向更低层、更大的存储器中...

2019-08-20 11:08:00 386

转载 MySQL索引解析(联合索引/最左前缀/覆盖索引/索引下推)

本节内容:1)索引基础2)索引类型(Hash索引、有序数组、B+树)3)索引的几个常见问题 1)联合索引 2)最左前缀原则 3)覆盖索引 4)索引下推1. 索引基础索引对查询的速度有着至关重要的影响,理解索引也是进行数据库性能调优的起点,索引就是为了提高数据查询的效率。索引可以包含一个或多个列的值,如果索引包含多个列的值,则列的顺序也十分重要,...

2019-08-14 21:03:00 463

转载 考研日记

##2018-07-16 周一##今天下午在图书馆,申请了博客园,之前用优快云,但是广告太多,被恶心到了。暂时还没有自己搭一个blog的打算,这个先用着吧,还蛮喜欢博客园这种简单的风格,最主要的是——它没有明显碍眼的广告。近来拖延的有些严重,一直没有总结,今天早上写完代码,突然有些茫然。想用这半天时间停下来好好思考,于是跑去看了看论坛前辈的记录,突然想到我也应该对这段历程记录些...

2018-07-16 15:19:00 204

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除