
算法学习笔记
算法学习笔记
Milanien
这个作者很懒,什么都没留下…
展开
-
搜索引擎(二)网页排名算法(1)PageRank
1.算法思想网页的权重PR(u)等于所有入链网页权重之和∑PR(v)除以入链网页对应的出链数量L(v)。网页v到网页u的转移概率则为网页v的权重PR(v)。2.随机游走模型1)阻尼因子为了解决网页只有出链或者只有入链而导致的网页权重为0的问题,随机游走模型设置了阻尼因子,阻尼因子模拟了用户通过链接继续点击网页的概率,默认值为0.85。最终计算网页权重的公式如下图,d为阻尼因子,N为页面总数。2)PageRank计算方法①幂迭代法转移矩阵A和随机赋值的网页初始权重P0不原创 2022-02-20 18:20:20 · 1532 阅读 · 0 评论 -
搜索引擎(一)原理
1.搜集网页给爬虫一组优质种子网页的链接,爬取这些网页链接到的其他网页。使用布隆过滤器避免重复爬取网页。2.对网页进行预处理并对网页建立索引去除html标签,留下网页内容。去除网页内容中的停用词后,将网页内容分词并建立倒排索引,倒排索引指key为单词,value为该单词出现过的所有网页id。3.对网页进行排名谷歌使用了PageRank算法对网页进行排名。4.用户查询用户输入搜索内容后,搜索引擎对其进行分词,从索引中找到相应网页,并按权重大小排列网页。5.参考资料搜索引擎背原创 2022-02-18 17:43:20 · 397 阅读 · 0 评论