
Spark
文章平均质量分 83
qq_26091271
这个作者很懒,什么都没留下…
展开
-
Spark:一个高效的分布式计算系统
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2015-12-31 22:45:59 · 275 阅读 · 0 评论 -
spark jion
1. 自连接假设存在如下文件:[root@bluejoe0 ~]# cat categories.csv 1,生活用品,02,数码用品,13,手机,24,华为Mate7,31234512345每一行的格式为:类别ID,类别名称,父类ID现在欲输出每个类别的父类别的名称,类似于SQL的自连接,注意到join的外键其实是父类ID。首先生成“父类ID->子类I转载 2016-11-25 22:26:00 · 303 阅读 · 0 评论 -
Spark API
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 Atio转载 2016-11-03 22:14:26 · 306 阅读 · 0 评论 -
Spark资料
Spark中文手册1-编程指南http://www.aboutyun.com/thread-11413-1-1.htmlSpark中文手册2:Spark之一个快速的例子http://www.aboutyun.com/thread-11484-1-1.htmlSpark中文手册3:Spark之基本概念http://www.aboutyun.com/thread-11502转载 2016-08-14 19:35:50 · 522 阅读 · 0 评论 -
spark流数据处理:Spark Streaming的使用
本文讲解Spark流数据处理之Spark Streaming。本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Streaming官方文档以了解最新信息。文中对Spark Streaming的讲解主要使用到Scala语言,其他语言请参考官方文档,这点请知晓。概述Spark Streaming是Spark转载 2016-09-18 09:33:26 · 6225 阅读 · 0 评论 -
spark常用函数:transformation和action
1、RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDmap(func):对调用ma转载 2016-08-12 21:02:54 · 793 阅读 · 0 评论 -
【Spark】RDD操作详解1——Transformation和Actions概况
Spark算子的作用下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,转化为Spark中的数据块,通过BlockM转载 2016-09-12 16:14:01 · 606 阅读 · 0 评论 -
【Spark】RDD操作详解3——键值型Transformation算子
Transformation处理的数据为Key-Value形式的算子大致可以分为:输入分区与输出分区一对一、聚集、连接操作。输入分区与输出分区一对一mapValuesmapValues:针对(Key,Value)型数据中的Value进行Map操作,而不对Key进行处理。方框代表RDD分区。a=>a+2代表只对( V1, 1)数据中的1进行加2操作,返回结果为3。源码:转载 2016-09-12 16:48:18 · 380 阅读 · 0 评论 -
【Spark】RDD操作详解2——值型Transformation算子
【Spark】RDD操作详解2——值型Transformation算子处理数据类型为Value型的Transformation算子可以根据RDD变换算子的输入分区与输出分区关系分为以下几种类型:1)输入分区与输出分区一对一型 2)输入分区与输出分区多对一型 3)输入分区与输出分区多对多型 4)输出分区为输入分区子集型 5)还有一种特殊的输入与输出分区一对一的转载 2016-09-12 16:18:36 · 630 阅读 · 1 评论 -
Spark入门实战系列 spark编程模型--IDEA搭建及实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、 安装IntelliJ IDEAIDEA 全称 IntelliJ IDEA,是java语言开发的集成环境,IntelliJ在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、创新的GUI设计等方面的功能可以说转载 2016-04-25 20:46:31 · 837 阅读 · 0 评论 -
spark+hadoop-2.6配置
1. 环境准备集群有三台机器:master:W118PC01VM01/192.168.0.112slave1:W118PC02VM01/192.168.0.113slave2:W118PC03VM01/192.168.0.114首先配置/etc/hosts中ip和主机名的映射关系:192.168.0.112 W118PC01VM01192.168.0.113 W11转载 2016-03-31 22:36:51 · 602 阅读 · 0 评论 -
Spark Shuffle原理、Shuffle操作问题解决和参数调优
1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决转载 2017-08-22 17:28:58 · 639 阅读 · 0 评论