
spark
Brad_Q1
这个作者很懒,什么都没留下…
展开
-
解决hadoop 安装could only be replicated to 0 nodes, instead of 1
老夫初学Hadoop,安装之后从上传数据就开始出幺蛾子 开始安装的时候,什么问题都没有,检查连接端口 http://master:50070 以及 http://master:8088 都好好的啊,那么开始从本地开始往hdfs上面传数据呗 上面这个错误,百度了好久,大概解决办法都比较统一 删除数据存储文件夹,一般网上放到的是/tmp/dfs下面 反正我放的是用户名所在文件下面的bigdat...原创 2019-02-16 19:31:24 · 461 阅读 · 0 评论 -
Spark SQL Dataset 常用API 一
主要介绍以及记录Spark SQL中常用的API原创 2019-02-17 10:33:55 · 845 阅读 · 0 评论 -
Spark SQL Dataset 常用API 二
Transformation Untyped API 前面一篇写了SELECT这个API的一些主要用法,本文打算通过一个SQL示例来展开讲述下Dataset其他常用的Untyped API,比如filter(类似于where),join,groupby 等等。 首先,描述下大概的需求: 表一,描述了一家五口人,有名字,年龄和性别,先在mysql中建表,并且插入数据 create table if ...原创 2019-02-17 13:56:36 · 353 阅读 · 0 评论 -
spark streaming编程模型【更新中】
spark streaming是准实时的一种流处理手段,其中核心在于较短时间间隔内持续运行。 其中主要包含以下几个模块, streaming context 数据接收器(Reciever) DStream Transform数据转换处理模块 应用启动start 下面详细说明其中每一项 ...原创 2019-02-28 07:28:19 · 552 阅读 · 0 评论 -
SparkStreaming滑动计算窗口reduceByKeyAndWindow图解说明
对于reduceByKeyAndWindow(_ + _, _ - _,Second(45), Second(5))这种算法不太明白的同学可以参考下,下图是通过个人理解所画,希望对大家理解这个函数有所帮助: 首先,说一下需求,就是每隔5秒,计算过去45秒内的X数量。 第一个窗口(第一个45s内,时间点1)里面的X数量是17个,然后时间往后移动了5秒,变成了时间点2。 图中,在时间滑动后,新增了5个...原创 2019-03-03 10:31:48 · 624 阅读 · 0 评论