
搜索引擎制作
学习
不知道叫啥的喵
写的自我学习笔记东西如果有问题,欢迎大家告诉我昂~。
展开
-
基于pagerank算法的运用Hbase的搜索引擎(5)——加上工作流控制篇
添加工作流控制的原因是为了让程序可以依照自己设置好的依赖先后关系自动的运行程序。思想:ControlledJob 是受控的job,可以添加不同job之间的依赖关系JobControl 是主控程序,用来按照依赖关系自动提交任务import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configure...原创 2019-12-27 16:03:14 · 222 阅读 · 0 评论 -
基于pagerank算法的运用Hbase的搜索引擎(4)——构建倒置索引表篇
思想步骤:1.原先的hbase的表是(左边)===》变成一个以关键字为rowkey的表(右边)import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.hbase.cli...原创 2019-12-27 15:50:18 · 274 阅读 · 0 评论 -
基于pagerank算法的运用Hbase的搜索引擎(3)——迭代计算rangkank值
输入数据:经过数据清洗后的hbase上的数据表整体思想:将清洗过后的数据import java.io.IOException;import java.util.*;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop...原创 2019-12-24 23:30:48 · 414 阅读 · 0 评论 -
基于pagerank算法的运用Hbase的搜索引擎(1)——数据清洗篇
数据清洗数据来源用nunch爬取的三层页面信息。主要信息的字段含义:inlinks 入链(url:linktext)outlinks 出链(url:linktext)baseUrl 用于将网页源码中相对链接地址的转为绝对地址,通常就是当前网页的地址,有重定向的情况下,是最终定向到的地址content 完整的网页源码,未经任何处理(字符集也没转)。text...原创 2019-12-24 10:16:19 · 529 阅读 · 0 评论 -
基于pagerank算法的运用Hbase的搜索引擎(2)——获得关键字篇
提取每个页面的关键字,主要思路,因为p列族下的t列数据不是很准确这里可以使用每个页面入链接标签中的内容作为每个页面的主题内容即为关键字,即 把拔取下来的数据html中的< a> xxxx< /a> 的xxx作为搜索的关键字。代码如下:import java.io.IOException;import java.util.Arrays;import java.u...原创 2019-12-27 15:38:14 · 378 阅读 · 0 评论