
Spark
云谱科技工作室计算机毕设
源码 卫星 cgf6668881
专业java毕设项目,淘宝店铺【云谱科技工作室】。淘宝店网址:https://shop387596558.taobao.com/,
店铺拥有丰富的java,vue,springboot,ssm,html,jsp,mysql,小程序等毕设项目,如果需要定制毕设请私信博主
展开
-
SparkStreaming 关于kafka偏移量的管理Redis篇
在开发java SparkStreaming的时候一定会遇到kafka偏移量管理的问题上,因为需要考虑到各式各样的容灾处理,如果我们采用kafka来自行处理kafka偏移量的话非常简单,因为kafka本身就有这个机制可以定时存储消费者分组的偏移量,但是这样会有重复消费的情况还有就是如果采用这种方式那么就是将kafka的offset全部交给kafka管理,本人在这里是不太推荐的,因...原创 2020-02-21 14:51:09 · 1129 阅读 · 0 评论 -
Spark笔记01
这次是随手开始写的笔记,在spark大数据开发中数据不会是规整的出现,大多都是有瑕疵的,比如null值,等等。那么在spark数据是已DataFram的形式存储的,而DataFram是以列的形式存储(element),为什么是列存储,这也是方便我们在日后进行计算,这也是为什么Scala与spark会经常同时出现处理大数据的原因,在大数据处理了的时候,Scala语言提供高效精简的语法,而spark有...原创 2018-10-29 17:55:38 · 149 阅读 · 0 评论 -
Spark笔记02
今天讲一下spark的基本概念:想要了解spark,首先要了解sparkRDD(弹性分布式数据集)。spark应用程序通过使用spark的转换API可以将RDD封装为一系列具有血缘关系的RDD,也就是DAG。只有通过spark的动作API才会将RDD及其DAG提交到DAGScheduler。RDD负责从数据源迭代读取数据。这样讲可能有点不太明白,就好比RDD是一个装载数据得容器,我们从数据源读...原创 2018-10-30 17:22:01 · 168 阅读 · 0 评论 -
Spark笔记03
sparksql可以支持parquet,json,hive等等数据源,常见的就这几个,并且可以通过jdbc链接外捕数据源。这里介绍parquetparquet是一种流行式的列存储格式,可以高效地存储具有嵌套字段的记录。parquet是语言无关的,而且不与任何一种数据处理框架绑定在一起,适配多种语言和组件,能够与parquet配合的组件有1,查询引擎:hive,sql等等一系列的查询引擎...原创 2018-11-14 18:56:26 · 299 阅读 · 0 评论 -
java编写 SparkStreaming动态广播变量常见问题
在用java开发sparkstreaming项目的时候有些时候会感觉很别扭,因为spark是scala语言开发的,虽然用javaSpark的api已经很成熟,但是,相对而言,还是scala比较方便。用java开始的时候刚开始还不是很习惯,这这那那的问题有很多,但是渐渐习惯以后,感觉还可以,因为java编程的话,对类型参数的要求严格,编译上有很多的帮助,对于编程语言学习真的有很大的帮助,该说不说...原创 2019-06-28 19:10:00 · 1420 阅读 · 0 评论 -
java 编写sparkstreaming检查点机制
我的博客都是在开发过程中遇到问题,和学习到的经验,写出来,跟大家分享,写博客这个事情还是非常感谢上一家公司的领导对我教诲,虽然很严厉但是对我的帮助和成长真的很大,虽然很可惜离开了,但是还是很感谢,我的年龄其实不大,开发和工作经验不多还是学习阶段。如果哪里有写不对的地方还请帮忙指认出来。上一章节中我们提到了sparksteaming的检查点机制,我觉得只要是流式计算都会涉及数据安全性的问题,对于...原创 2019-06-28 20:44:19 · 434 阅读 · 0 评论