大数据
她曾让你心动
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Echarts可视化实战
Echarts可视化实战 获取HBase中的数据 按天获取HBase中course_clickcount表的数据 public Map<String, Long> query(String tableName, String condition) throws Exception { HashMap<String, Long> map = new HashMap<>(); HTable table = getTable(table原创 2020-09-16 21:21:58 · 596 阅读 · 0 评论 -
Spark Streaming实时流处理项目
Spark Streaming 实时流处理项目实战 项目整体流程: 模拟用户访问日志数据; 由Flume采集数据并通过Kafka进行消费; 按照需求由spark sparkstreaming 进行实时处理,并将结果保存到HBase中; 数据准备 generate_log.py 生成模拟用户访问网站的日志数据 由ip+时间+url+状态码+搜索引擎来源组成 为了模拟实时处理流程,定时 运行generate_log.py 脚本 定时运行: lgl.sh python /home/jackie原创 2020-09-16 00:12:13 · 708 阅读 · 0 评论 -
关于hadoop集群中Windows端无法访问50070端口但可以访问8088端口的问题解决
问题排除 集群包括hadoop102、hadoop103、hadoop104,其中hadoop102 是master; 虚拟机中所有端口均可正常访问,表明集群配置文件等没有问题; Windows端无法访问50070端口,准确的来说是无法访问master中的所有端口: yarn配置在hadoop103中,2NN配置在hadoop104,8088、50090端口可以访问,说明其他两台没有问题; 那么问题就是在hadoop102中; 问题解决 hadoop102的防火墙出了问题,而其他两台的均正常关原创 2020-09-12 22:35:31 · 1964 阅读 · 0 评论 -
Spark 实现 Top N
需求 取出每个班级前三的score 数据格式 class2 77 class4 95 代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object TopN { def main(args: Array[String]): Unit = { //创建SparkConf对象 val config: SparkConf = new SparkConf().原创 2020-09-10 23:46:40 · 476 阅读 · 0 评论 -
Spark 温度二次排序
输入数据格式 预期结果 package com.jackie.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} class UDFSort(val first: Int, val second: Int) extends Ordered[UDFSort] with Serializable { override def compare(that: UDFSort): Int原创 2020-09-10 22:08:38 · 507 阅读 · 0 评论
分享