
Spark
文章平均质量分 62
大壮vip
博学而笃志,切问而近思。
展开
-
spark开发mysql伪实时数据接入与写入
一、写在前头。早先考虑到并且调研的架构师flume或者canel等读取mysql的binlog,但是需要mysql开启row模式存binlog,但是目前mysql库是已经积攒了很多业务数据,举个例子就是批量修改一万条,仅记录一条update语句,如果改成行,对服务器的磁盘空间要求很大。但是不开启行,就会造成,解析binlog的insert还好,我可以解析后放入kafka中,但是如果涉及到u...原创 2020-03-29 22:44:15 · 505 阅读 · 1 评论 -
spark任务调优
一。首先我们来看一下本来的任务时间。二。调优azkaban的job并行任务数优化了12s,如何优化可以参看上一篇文章,本篇着重说一下spark的任务数# default 10 but we need fasterflow.num.job.threads=20三。增加spark内存发现之前机器应该是内存分配不够,分配的内存全部占满了。赶紧增加内存,...原创 2020-03-29 22:42:00 · 456 阅读 · 2 评论 -
【温故而知新】hdfs file、RDD、Pratition、task、core、executor关系整理
一.spark中Partition,Task,core,Executor的个数决定因素和关系:1.RDD 中有多个 Partition,Partition 是 Spark RDD 计算的最小单元,决定了计算的并发度。分区数如果远小于集群可用的 CPU 数,不利于发挥 Spark 的性能,还容易导致数据倾斜等问题。分区数如果远大于集群可用的 CPU 数,会导致资源分配的时间过长,从而影响性能。...原创 2020-03-26 11:01:24 · 310 阅读 · 0 评论 -
来解决一个很棘手的问题,sparkstream我用的spark版本较新,df落地到mysql最近爆出了问题 com.mysql.jdbc.Driver does not allow create
来看下官网的demo,这里没有任何问题,因为.format("jdbc")是隐式,我们无需关注driver的适用性,但是,程序后台任然会报错,当我们写明用数据库类型之后,也会出现说,无法create table as select,这个mysql是不允许的。但是,以前我们的spark项目是可以的,就因为我使用了,新版本的spark吗?我知道csdn的活跃度很低,问了也是白问,stacko...原创 2020-01-20 17:16:50 · 817 阅读 · 3 评论 -
CDH 5.16.1 使用 flume、kafka、sparkstreaming做实时
本文的主要目的就是为了实现以下需求: 通过flume收集日志; 将收集到的日志分发给kafka; 通过sparksteaming对kafka获取的日志进行处理; 然后将处理的结果存储到hdfs的指定目录下。 第一步,我们创建flume配置文件,直接在cm上面改就行了。a1.sources = r1a1.channels = c1...原创 2019-06-05 15:09:58 · 907 阅读 · 0 评论 -
spark的dataframe写入mysql的坑
从Spark Shell连接到MySQL:spark-shell --jars "/path/mysql-connector-java-5.1.42.jar可以使用Data Sources API将来自远程数据库的表作为DataFrame或Spark SQL临时视图加载。用户可以在数据源选项中指定JDBC连接属性。可以使用Data Sources API将来自远程数据库的表作为DataFra...原创 2019-06-12 14:22:34 · 6609 阅读 · 11 评论 -
无侵入式的mysql的binlog采集——maxwell采集binlog放到kafka中——成功!
调研过flume,目前采用datax,但是都是具有侵入式,即使再增量也会影响服务器性能,详细藐视可以查看我以前的文章。调研flume、cannal、outter、maxwell最后无侵入式的,实时的。主要区别:1、虽然Maxwell不能直接支持HA,但是它支持断点还原,即错误解决后重启继续上次点儿读取数据。2、Canal是服务端,数据过来了并不能直接写出去,需要一个客户端:s...原创 2019-06-06 10:50:43 · 3177 阅读 · 4 评论 -
spark与hadoop维护job、application
1.首先来看spark如何查看或者停止任务。yarnapplication-list查询所有的任务;然后使用yarnapplication-kill<appId>2.hadoop列出Jobtracer上所有的作业hadoop job -list使用hadoop job -kill杀掉指定的jobidhado...原创 2019-06-18 10:17:59 · 449 阅读 · 0 评论 -
CDH集群配置资源队列
1.首先来调整自动创建队列的情况发生,这会让我们失去控制。设置两个yarn集群参数,禁止自动创建资源队列yarn.scheduler.fair.user-as-default-queue false 2. yarn.scheduler.fair.allow-undeclared-pools2.创建动态资源池创建资源池并且将原有资源池进行更改 创建新增用户...原创 2019-06-26 10:23:37 · 2083 阅读 · 0 评论 -
cdh中使用flume+kafka+sparkstreaming做实时,开发环境demo(内附报错解决方案)
因为发现有人抄袭我的文章,所以有需要cdh版本做搭建的朋友在下方留言,我提供文档。原创 2019-05-23 18:06:52 · 667 阅读 · 5 评论 -
mysql、flume、zookeeper、kafka快速搭建
准备做实时数据计算。数据源为mysql的20张表吧。通过flume解析binlog日志,然后sink到kafka,由sparkstreaming消费,实时处理业务数据生成目标数据写到我们的mysql中。 一.mysql搭建0. 检查是否已安装并删除已安装的包yum list installed mysql* yum remove mysql-community-clien...原创 2018-11-23 16:26:09 · 297 阅读 · 0 评论 -
flume读取binlog与kafka整合
一、现将kafka调通 查看zookeeper的topiccd /usr/software/zookeeper/zookeeper/bin./zkCli.sh startls /brokers/topics 先来说一下,删除kafka无用topic./kafka-run-class.sh kafka.admin.DeleteTopicCommand --zooke...原创 2018-11-26 19:14:48 · 4669 阅读 · 4 评论 -
完美解决Spark应用日志级别设置
一. 日志效率原因 开发时,控制台输出一大堆日志信息,严重影响查看日志效率。 从控制台输出日志我们可以看出,应用程序是默认加载Spark-core包下面的log4j-defaults.properties日志文件。查看log4j-defaults.properties文件由上图可知,Spark-core包设置默认的日志级别为info,所以我们才看到一大堆日志信i息。...原创 2018-12-06 15:07:47 · 1901 阅读 · 0 评论 -
spark项目架构搭建开发文档
历时将近两个月,终于搞定了,自己尝试了设计、框架搭建、开发、自测等一系列,但是不总结就是瓜皮。所以将以本篇作为总结性文章,提醒未来的自己,更好的开发项目。 一、设计文档部分写代码之前,先想,从大往小了想。想的越仔细,将来坑越少,想的越仔细,那么开发的排期也就越明白。 首先调研,花了几天调研。调研邮件开始了,以及初步的设计图。数据开发流程1.搭建虚拟机测试环...原创 2019-01-23 15:00:40 · 3031 阅读 · 0 评论 -
spark开发必备
本篇文章为自己总结,都是干货和精华。其中有许多文章引用,我直接粘贴在代码里,请注意。 1.idea集成开发环境https://blog.youkuaiyun.com/u012373815/article/details/532663012.报错:scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection...原创 2019-01-23 15:17:33 · 897 阅读 · 0 评论 -
启动spark,提示JAVA_HOME not set,解决
启动时候,发现启动时报异常,JAVA_HOME is not set. spark在sbin目录下的配置文件添加JAVA_HOMEexport JAVA_HOME=/usr/local/jdk 问题解决原创 2019-01-30 15:18:39 · 2724 阅读 · 0 评论 -
CDH-Spark2-yarn-cluster开发
详细的文档在系列cdh搭建第一篇有详细的介绍,但是相关场景,觉得还是需在本篇做一下补充。。。spark2自定义安装 参考这篇文章 https://blog.youkuaiyun.com/Gavin_chun/article/details/78554277 一、下载 ...原创 2019-05-14 15:19:47 · 1348 阅读 · 0 评论 -
CDH搭建flume+kafka以及sparkstreaming来做实时
实时计算部分代码开发 1.首先我们来说一下cdh搭建flume flume非常的简单,直接cdh就可以集成了,不多赘述 用cdh非常的简单,接下来说一下kafka的集成吧,而kafka 则相对比较麻烦点,需要下载kafka的服务描述jar包 ...原创 2019-05-17 19:12:05 · 1555 阅读 · 0 评论 -
今天来看下sparkstreaming做一个简单的实时数据处理并且保存到mysql中
已经搞定了开发环境,很快需求就要下来.话不多说,我们开始配置一下先研究部分实时部分的代码逻辑,提供将来实时计算逻辑。[root@node1 ~]# cat kafka_output.sh for((i=0;i<=1000;i++));do echo "hello world haha haha hello haha haha kafka_test-"+$i>...原创 2019-05-27 17:13:40 · 2580 阅读 · 2 评论 -
你需要的,spark写pg报错:java.lang.IllegalArgumentException: Can't get JDBC type for null
首先来看报错信息看到google上有开发者阅读源码: 这是他的解决方案。其实意思就是说,你的空值插不进去,要重新将null做成数据插进去,比方说int需要插0,如果0已经有意义,那就-1呗。莫慌...原创 2018-11-05 15:12:15 · 6157 阅读 · 0 评论