
spark
love others as self
love others as self! ----愿美梦成真!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark RDD操作(Python)总结
Spark 提供了很多Transformation用于创建RDD,总结如下(Python)map(func)将原RDD中每个元素代入带入func123>>> rdd = sc.parallelize([1, 2, 3])>>> rdd.map(lambda x: x*x).collect()[1, 4, 9]转载 2016-05-24 08:18:11 · 8474 阅读 · 0 评论 -
spark入门知识
1、Java下Spark开发环境搭建1.1、jdk安装安装oracle下的jdk,我安装的是jdk 1.7,安装完新建系统环境变量JAVA_HOME,变量值为“C:\ProgramFiles\Java\jdk1.7.0_79”,视自己安装路劲而定。同时在系统变量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\ProgramFiles\Ja原创 2017-06-24 19:14:16 · 712 阅读 · 0 评论 -
Spark:Yarn-cluster和Yarn-client区别与联系
https://www.iteblog.com/archives/1223.html我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。 Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN ),集群管理负责启动exe转载 2017-06-23 16:39:09 · 403 阅读 · 0 评论 -
Spark集群安装配置步骤
http://blog.youkuaiyun.com/gangchengzhong/article/details/54969615本文使用3台测试服务器,下面是各服务器的角色:- node1:Worker- node2:Worker- node3:Master, Worker1. 配置hosts文件本文使用RedHat是在 /etc/hosts,新增3台测试服务器的i转载 2017-06-20 09:54:02 · 456 阅读 · 0 评论 -
Spark 简单实例(基本操作)
目录[-]1、准备文件2、加载文件3、显示一行4、函数运用 (1)map (2)collecct (3)filter (4)flatMap (5)union (6) join (7)lookup (8)groupByKey (9)sortByKey1、准备文件?1wget转载 2017-06-02 14:41:31 · 2986 阅读 · 0 评论 -
spark调优经验(待续)
Spark调优是需要根据业务需要调整的,并不是说某个设置是一成不变的,就比如机器学习一样,是在不断的调试中找出当前业务下更优的调优配置。下面零碎的总结了一些我的调优笔记。spark 存储的时候存在严重的分配不均的现象,有几台机器在过渡使用, 有几台机器却很少被使用,有几台机器缓存了几十个上百个RDD blocks 有的机器一个RDD blocks 都没有,这样存储有RDD blocks转载 2017-03-14 16:49:47 · 3077 阅读 · 1 评论 -
Spark基础
Spark基础 基石RDD spark的核心是RDD(弹性分布式数据集),一种通用的数据抽象,封装了基础的数据操作,如map,filter,reduce等。RDD提供数据共享的抽象,相比其他大数据处理框架,如MapReduce,Pegel,DryadLINQ和HIVE等均缺乏此特性,所以RDD更为通用。 简要地概括RDD:RDD是一个不可转载 2016-05-23 22:27:16 · 1055 阅读 · 0 评论 -
Hadoop和spark通信机制
Hadoop MR中的计算框架,jobTracker和TaskTracker之间是由于通过heartbeat的方式来进行的通信和传递数据,会导致非常慢的执行速度,而Spark具有出色的高效的Akka和netty通信系统原创 2016-04-08 16:12:14 · 1671 阅读 · 1 评论 -
spark学习
转自:http://hbasefly.com/2017/01/02/how-to-study/之所以忽然提笔,是因为这段时间正好在业余时间系统地学习Spark,整个学习思路让我想起了大学期间学习《模拟电子电路》这门课的一些方法,个人觉得可以作为一个学习模板来和大家一起交流分享(本文只谈如何系统高效地学习一项技能或者一门课程,抱有突击学习目的的请绕道)。无论是学习Spark技术还是学习《模拟电子转载 2017-02-20 17:11:56 · 509 阅读 · 0 评论 -
spark快速大数据分析之读书笔记-flatmap与map的区别
以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。有些拗口,看看例子就转载 2016-05-23 21:52:04 · 6908 阅读 · 0 评论 -
spark快速大数据分析之读书笔记
RDD编程1、Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。2、用户可以使用两种方法创建RDD:读取一个外部数据集,以及在驱动器程序中对一个集合进行并行化(比如list和set)。创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法。val lin原创 2016-05-21 09:55:09 · 2025 阅读 · 0 评论 -
spark介绍
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(转载 2016-05-23 19:57:32 · 795 阅读 · 0 评论 -
用Apache Spark进行大数据处理——第二部分:Spark SQL
在Apache Spark文章系列的前一篇文章中,我们学习了什么是Apache Spark框架,以及如何用该框架帮助组织处理大数据处理分析的需求。Spark SQL,作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。通过Spark SQL,可以针对不同格式的数据执行ETL操作(如JSON,Parquet,数据库)然后完成特定的查询操转载 2016-06-01 16:02:48 · 1915 阅读 · 0 评论 -
MLlib数据类型
1.本地向量 本地向量的基类是 Vector,我们提供了两个实现 DenseVector 和 SparseVector。我们建议通过 Vectors中实现的工厂方法来创建本地向量:(注意:Scala语言默认引入的是 scala.collection.immutable.Vector,为了使用MLlib的Vector,你必须显示引入org.apache.spark.mllib.li转载 2016-06-03 22:22:16 · 1234 阅读 · 0 评论 -
《深入理解SPARK:核心思想与源码分析》(前言及第1章)
自己牺牲了7个月的周末和下班空闲时间,通过研究Spark源码和原理,总结整理的《深入理解Spark:核心思想与源码分析》一书现在已经正式出版上市,目前亚马逊、京东、当当、天猫等网站均有销售,欢迎感兴趣的同学购买。我开始研究源码时的Spark版本是1.2.0,经过7个多月的研究和出版社近4个月的流程,Spark自身的版本迭代也很快,如今最新已经是1.6.0。目前市面上另外2本源码研究的Spark书籍转载 2016-05-19 12:14:31 · 1168 阅读 · 0 评论 -
spark快速大数据分析之数据读取与保存
1 动机 探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。spark生态常见三种数据源: 文件格式与文件系统,spark SQL中的结构化数据源, 数据库与键值存储2文件格式 a.0....逗号分隔值CSV与制表符分隔值 a.文本文件 ------非结构化原创 2016-05-24 20:15:10 · 6989 阅读 · 2 评论 -
Furion Scheduler的混合负载管理
转:http://www.transwarp.cn/news/detail?id=203多租户场景下实现Inceptor中的作业调度是复杂的,不仅要考虑到任务自身的优先级和资源占用情况,而且要结合不同用户|组|角色的权限以及资源配额限制,做细粒度的调度管理。通常会遇到以下几项问题:1. 资源被大批处理任务占用,导致小的报表任务一直无法被调度。2. 某个用户持续提交任务,转载 2017-08-18 10:34:44 · 1553 阅读 · 0 评论