集群说明
集群ip |
集群配置 |
172.17.11.63(master) |
Hadoop-2.7.6(Namenode) spark-2.4.0 Hbase-1.2.4 Kafka_2.11-2.1.0 Zookeeper-3.4.10 |
172.17.11.37 |
Hadoop-2.7.6(Datanode) spark-2.4.0 Hbase-1.2.4 Kafka_2.11-2.1.0 Zookeeper-3.4.10 |
172.17.11.64 |
Hadoop-2.7.6(Datanode) spark-2.4.0 Hbase-1.2.4 Kafka_2.11-2.1.0 Zookeeper-3.4.10 |
集群架构图
算法说明
倒排索引:
使用spark streaming实现
- 首先url这个变量传入两个参数(网页链接,网页内容分词后的结果)
- 对网页内容分词后的结果使用flatmap,按分词的空格分割后变成流,再使用map对每个词进行处理,使他们变成 url+分号+词的形式,变成一个新的Dstream。
例如,原始数据为(url,”A B C A”)
A B C为分词处理后的一个个词
使用flatmap分词后得到(“url;A”),(”url;B”),(”url;C”), (”url;A”)
- 对得到的结果使用map映射,得到