
spark-streaming
大壮vip
博学而笃志,切问而近思。
展开
-
【sparkstreaming写hdfs调研】调研将kafka消息,从sparkstreaming写入hdfs
rdd.saveAsTextFile("hdfs://pro-app-175:9000/user/hadoop/spark/data")Protocol message end-group tag did not match expected tag显然是我端口弄错了,所以,改成8020即可。rdd.saveAsTextFile("hdfs://pro-app-175:8020/user/hadoop/spark/data")这里我们想将来hive可用,所以,...原创 2020-06-01 17:09:14 · 561 阅读 · 0 评论 -
来解决一个很棘手的问题,sparkstream我用的spark版本较新,df落地到mysql最近爆出了问题 com.mysql.jdbc.Driver does not allow create
来看下官网的demo,这里没有任何问题,因为.format("jdbc")是隐式,我们无需关注driver的适用性,但是,程序后台任然会报错,当我们写明用数据库类型之后,也会出现说,无法create table as select,这个mysql是不允许的。但是,以前我们的spark项目是可以的,就因为我使用了,新版本的spark吗?我知道csdn的活跃度很低,问了也是白问,stacko...原创 2020-01-20 17:16:50 · 817 阅读 · 3 评论 -
今天来看下sparkstreaming做一个简单的实时数据处理并且保存到mysql中
已经搞定了开发环境,很快需求就要下来.话不多说,我们开始配置一下先研究部分实时部分的代码逻辑,提供将来实时计算逻辑。[root@node1 ~]# cat kafka_output.sh for((i=0;i<=1000;i++));do echo "hello world haha haha hello haha haha kafka_test-"+$i>...原创 2019-05-27 17:13:40 · 2580 阅读 · 2 评论 -
无侵入式的mysql的binlog采集——maxwell采集binlog放到kafka中——成功!
调研过flume,目前采用datax,但是都是具有侵入式,即使再增量也会影响服务器性能,详细藐视可以查看我以前的文章。调研flume、cannal、outter、maxwell最后无侵入式的,实时的。主要区别:1、虽然Maxwell不能直接支持HA,但是它支持断点还原,即错误解决后重启继续上次点儿读取数据。2、Canal是服务端,数据过来了并不能直接写出去,需要一个客户端:s...原创 2019-06-06 10:50:43 · 3177 阅读 · 4 评论