
spark
文章平均质量分 80
问道9527
这个作者很懒,什么都没留下…
展开
-
如何优化棘手的Spark程序性能问题?
乍一看编写 Spark 程序似乎很容易,如果了解数据的要求和足够的知识,那就是读取数据集、根据键进行连接、然后做一些转换,最后便准备好了一个交付的新数据集!如果您正在使用的数据非常小并且整个转换过程只需要几分钟,则可能会出现这种情况。然而从定义上看,Spark 具有高度可扩展性,当数据量越来越大时,事情可能会失控。相反如果转换可能需要数小时,而需要尝试尽可能缩短执行时间,则可以尝试扩展集群并为此支付更多费用,或者可以尝试优化代码。知道如何解决性能问题并能够优化 Spark 代码(或者只是让它运行得更快)是一转载 2022-04-25 09:30:09 · 593 阅读 · 0 评论 -
spark本地运行错误(1)
java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memory option or spark.driver.memory in Spark configuration. at org.apache.spark.memory.UnifiedMemoryManager$.getMaxMem...原创 2022-04-07 09:48:48 · 1866 阅读 · 0 评论 -
Spark Streaming场景应用-Kafka数据读取方式
概述Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spark Streaming 官方提供了两种方式读取Kafka数据:一是Receiver-ba...转载 2019-10-15 10:37:57 · 244 阅读 · 0 评论 -
hive derby.log 位置
使用spark-sql连接hive 数据源 总会出现derby.log 文件,挺碍眼的。查了下资料 在$SPARK_HOME/conf/spark-defaults.conf 添加一下配置即可spark.driver.extraJavaOptions -Dderby.system.home=/tmp/derby整个世界都清净了。...原创 2019-10-14 15:28:33 · 1007 阅读 · 0 评论 -
spark1.6.0分布式安装
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMast转载 2016-10-10 22:19:52 · 692 阅读 · 0 评论 -
spark 批量写入redis (pipeline + 分批提交)
spark 和redis交互的文章网上太多,涉及批量到写redis大都用pipline模式。总感觉美中不足,因为pipeline是将命令进行打包处理,大数据量下pipline()慢且导致内存不足。 花了一点时间实现了redis批量提交,做个笔记备忘。package com.hooray.spark.sass2.programimport java.util.concurrent.LinkedBlo原创 2017-09-28 01:45:03 · 8234 阅读 · 1 评论