
spark基础知识
雪峰庙
努力奋斗
展开
-
Spark1.0.0 多语言编程之Scala实现
Scala作为Spark的原生语言,在开发上Spark应用程序上最大的优势是支持所有的功能、容易追踪bug等。试过几种开发工具,笔者还是觉得IntelliJ IDEA开发Scala程序比较方便,当然开发Spark 应用程序也一样。 Spark开发环境参见Spark1.0.0 开发环境快速搭建,本篇是对Spark1.0.0 多语言编程的需求进行scala实现。转载 2014-07-12 09:36:02 · 468 阅读 · 0 评论 -
Spark1.0.0 开发环境快速搭建
为了解析一些概念、解析一些架构、代码测试,搭建了一个实验平台,如下图所示: 本实验平台是在一台物理机上搭建的,物理机的配置是16G内存,4核8线程CPU。平台的环境配置如下:机器名配置角色软件安装hadoop12G内存,双核hadoop:NN/DN Spark:Master/worker转载 2014-07-11 08:23:50 · 471 阅读 · 0 评论 -
总结2015之Spark篇:新生态系统的形成
2015年的Spark社区的进展实在是太快了,我发现1月份出版的一本参考书到现在已经有很多内容是过时的了。社区大踏步前行的同时,用户和应用案例也越来越多,应用行业越来越广泛。到年底了我们来梳理下Spark这快速发展的一年。先从全局有个认识,我尝试用三句话来概括下Spark最主要的变化,然后在接下来的篇幅选取一些重点内容展开。Spark生态系统渐趋完善。支持的外部数据源越来越多,转载 2016-01-12 21:28:44 · 982 阅读 · 0 评论 -
如何基于Spark进行用户画像
问题导读:1.拿到数据我们怎么去做数据分析?2.在spark中怎么去做聚类分析?近期,comSysto公司分享了该公司研发团队利用Spark平台解决Kaggle竞赛问题的经历,为Spark等平台应用于数据科学领域提供了借鉴。主办方提供了一个包含5万个匿名驾驶员线路的数据集,竞赛的目的是根据路线研发出一个驾驶类型的算法类签名,来表征驾驶员的特征。例如,转载 2016-03-18 11:03:29 · 7559 阅读 · 0 评论 -
Spark map-side-join 关联优化
将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。如果其中有张表较小的话,我们则可以自己实现在 map转载 2016-03-11 09:32:03 · 364 阅读 · 0 评论 -
Spark性能优化基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-05-02 16:56:08 · 552 阅读 · 0 评论