
spark
文章平均质量分 61
轻风细雨
加油
展开
-
spark foreachRDD 实现批量提交避免频繁插入
DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口等机制来保证每个微批次的时间间隔里, 数据流以RDD的形式发送给spark做进一步处理。因此, 在一个为批次的处理时间间隔里, DStream只产生一个RDD。dstream.foreachRDD { rdd => val connection = createNewConnection() // exe.原创 2020-12-08 15:32:54 · 1807 阅读 · 0 评论 -
Spark SQL fails on empty ORC table
如题。sqlContext.setConf("spark.sql.hive.convertMetastoreOrc","false")参考上BEST ANSWER说把参数放在:In ambari its Custom spark-defaults.Value : spark.sql.hive.convertMetastoreOrc=false这样并不可行,要放在...原创 2019-12-11 16:59:08 · 2779 阅读 · 0 评论 -
Spark Job History Server OutOfMemoryError
参考:Spark Job History Server OutOfMemoryErrorSetting Spark History Heap SizeHow to set extra JVM options for Spark History Server原创 2019-12-11 16:31:02 · 3085 阅读 · 0 评论 -
flume kafka spark streaming
flume kafka spark streaming 安装flume 目前1.6 可能不支持Taildir(猜测) ,下载1.7/1.8版本下载地址 http://www.apache.org/dyn/closer.lua/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz 去官网自己找吧。 1.先搭建flume 将下载的包解压 tar -zxvf **原创 2017-10-11 14:26:44 · 4049 阅读 · 0 评论 -
spark 调优及运行原理
Spark架构与作业执行流程简介 Local模式 运行Spark最简单的方法是通过Local模式(即伪分布式模式)。运行命令为:./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的Spark架构与作业执行流程 Standalone模式下,集群启动时包括Master与Worker,其中Master负责接收客转载 2017-10-30 15:15:50 · 5005 阅读 · 1 评论 -
spark 对于key/value 排序 取前几 top take(转载)
看到以前很细的关于排序的文章,偷偷的将其收入希望可以让更多人看到。来源:http://blog.youkuaiyun.com/dai451954706/article/details/52668258 最近在使用Spark进行一些日志分析,需要对日志中的一些(key,value)型数据进行排序,并取出value最多的10条数据。经过查找资料,发现Spark中的top()函数可以取出排名前...转载 2017-11-20 10:57:14 · 19234 阅读 · 2 评论 -
Address already in use: Service 'SparkUI' failed after 16 retries!
saprk-sql 启动时报错描述:每一个Spark任务都会占用一个SparkUI端口,默认为4040,如果被占用则依次递增端口重试。但是有个默认重试次数,为16次。16次重试都失败后,会放弃该任务的运行。解决初始化SparkConf时,添加conf.set(“spark.port.maxRetries”,“100”)语句使用spark-submit提交任务时,在命令行中添加-D...原创 2018-12-27 17:21:16 · 6485 阅读 · 0 评论