
SparkCommon
无名氏0428
路漫漫其修远兮,吾将上下而求索。
展开
-
Spark2.0 监控界面报错javax.servlet.http.HttpServletRequest.isAsyncStarted()Z
1、环境 Spark2.0,Hadoop3.0,Intellj,Scala2.112、pom文件 org.apache.spark spark-core_2.11 2.0.0 org.apache.hadoop hadoop-common ${hadoop.common.version} org.apache.had原创 2016-11-08 22:09:14 · 8394 阅读 · 1 评论 -
Spark部署方式---Standalone
官方地址:http://spark.apache.org/docs/latest/spark-standalone.html1、搭建Standalone模式集群2、手动启动集群 2-1) 在master节点上启动Spark Master服务,./sbin/start-master.sh Master服务成功启动后,会打印出park://HO原创 2016-11-12 16:44:05 · 6965 阅读 · 0 评论 -
Spark 优化
官网地址:http://spark.apache.org/docs/latest/tuning.html1、引言提到Spark与Hadoop的区别,基本最常说的就是Spark采用基于内存的计算方式,尽管这种方式对数据处理的效率很高,但也会往往引发各种各样的问题,Spark中常见的OOM等等。效率高的特点,注定了Spark对性能的严苛要求,那Spark不同程序的性能会碰到不同的资原创 2016-11-13 15:45:12 · 5645 阅读 · 0 评论 -
Spark性能优化总结
近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高计算性能三个目标优先级依次递减,首要解决的是程序能够跑通大数据量,资源转载 2016-11-13 21:51:31 · 19515 阅读 · 4 评论