
spark+scala
文章平均质量分 86
漂浮的鱼~
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南(一)(开发调优)
本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中转载 2016-07-12 17:28:06 · 915 阅读 · 0 评论 -
Spark性能优化指南(二)(资源调优)
本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html资源调优调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。转载 2016-07-12 17:31:32 · 1152 阅读 · 0 评论 -
Spark性能优化指南(三)(数据倾斜调优)
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三转载 2016-07-12 18:11:40 · 935 阅读 · 0 评论 -
spark性能调优指南(四)(shuffle调优)
shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此转载 2016-07-12 18:34:49 · 1041 阅读 · 0 评论 -
Spark函数讲解:collectAsMap
/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址:http://www.iteblog.com/archives/1289 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:转载 2016-07-13 17:08:19 · 4439 阅读 · 0 评论 -
spark函数讲解:cogroup
cogroup:将多个RDD中同一个Key对应的Value组合到一起。最多可以组合四个RDD函数原型:def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Itera转载 2016-07-13 17:20:05 · 5441 阅读 · 0 评论 -
spark函数讲解:aggregate
函数原型:defaggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): UAggregate the elements of each partition, and then the results for all the partitions, using原创 2016-07-13 18:44:45 · 2600 阅读 · 0 评论 -
spark操作mysql数据库
spark对mysql提供了一些基本的读写操作,今天这边文章主要从读写两个方面来讲。一、spark读取mysql数据库1、通过JdbcRdd来读取 首先看一下官方文档是如何介绍的翻译为:1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。2、sql 是查询语句,此查询语句必须包含两处占位符?来作为分割数据原创 2016-07-18 18:03:18 · 13491 阅读 · 0 评论