
Spark
文章平均质量分 68
chengqiuming
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark简介
一 简介与功能 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户同时将Spark部署在大量廉价硬件之上,形成集群。 1 分布式计算 2 内存计算 3 容错 4 多计算范式 Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金会旗下顶级开源项目。原创 2018-02-03 19:33:05 · 655 阅读 · 0 评论 -
KeyValue对RDDs之combineByKey函数
一 combineByKey() (createCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于key的聚合函数,返回的类型可以与输入类型不一样 许多基于key的聚合函数都用到了它,向groupByKey() 二 combineByKey工作原理 遍历parition中的元素,元素的key,要么之前见过的,要么没见过。原创 2018-02-07 19:59:14 · 322 阅读 · 0 评论 -
KeyValue对RDDs(一)
一 创建KeyValue对RDDs 使用map()函数,返回key/value 例如,包含数行数据的RDD,把每行数据的第一个单词作为keys scala> val rdd=sc.textFile("/root/helloSpark.txt") rdd: org.apache.spark.rdd.RDD[String] = /root/helloSpark.txt MapPartitions原创 2018-02-07 19:17:48 · 422 阅读 · 0 评论 -
RDDs的特性
一 RDDs的血统关系图 Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。 二 延迟计算(Lazy Evaluation) Spark对RDDs的计算是,他们第一次使用action操作的时候 这种方式在处理大数据的时候特别有用,可以减少数据的传输 Spark内部记录metadata表名tra原创 2018-02-07 18:52:16 · 604 阅读 · 0 评论 -
RDD基本操作之Action
一 Action介绍 在RDD上计算出一个结果。 把结果返回给driver program或保存在文件系统,count(),save 二 常用算子 三 常用算子应用 1 reduce() 接受一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其他类型的聚集操作。 scala> val rdd = sc.paral原创 2018-02-05 22:00:00 · 873 阅读 · 0 评论 -
RDDs基本操作之Transformations(二)
一 说明 RDDs支持数据集合的计算,例如并集,交集计算。 二实战 scala> val rdd1=sc.parallelize(Array("coffe","coffe","panda","monkey","tea")) rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize原创 2018-02-05 21:40:53 · 394 阅读 · 0 评论 -
RDDs基本操作之Transformations(一)
一 Transformations Transformations(转换):从之前的RDD构建一个新的RDD,像map()和filter() 二 逐元素Transformations 1 map函数 map():map()接收函数,把函数应用到RDD的每一个元素,返回新RDD。 scala> val lines = sc.parallelize(Array("hello","sp原创 2018-02-04 20:52:20 · 600 阅读 · 0 评论 -
RDDs相关概念介绍
一 Driver program 包含程序的main()方法,RDDs的定义和操作。 它管理很多节点,我们称作executors 二 SparkContext 1 介绍 Driver program通过SparkContext对象访问Spark SparkContext对象代表和一个集群的连接 在Shell中SparkContext自动创建好了,就是sc 2 示例 s原创 2018-02-04 19:44:26 · 2524 阅读 · 0 评论 -
Spark运行说明
一 Spark运行环境 Spark是Scala写的,运行在JVM上,所以运行环境Java7+ 如果使用Python API,需要安装Python 2.6+或者运行Python3.4+ Spark 1.6.2-Scala 2.10 Spark 2.0.0+Scala2.11 二 Spark下载 下载地址: http://spark.apache.org/downloads.ht原创 2018-02-04 18:55:34 · 697 阅读 · 0 评论 -
Spark介绍
一 Spark是什么 Spark是一个快速且通用的集群计算平台。 二 Spark的特点 1 Spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 2 Spark是通用的 Spark的设计容纳了其它分布式系统拥有的功能 批处理(Hadoop),迭代式计算(机器学习)、交互查询(Hive)和流处理(Storm)等 优点:降低了维护成原创 2018-02-04 14:57:54 · 685 阅读 · 0 评论 -
JDK8+Scala2.11+spark-2.0.0+Intellij2017.3.4开发wordcount程序并在集群中运行
一 安装JDK 下载地址 http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 下载文件名:jdk-8u162-windows-x64.exe 二 安装Scala 下载地址 https://downloads.lightbend.com/scala/2.11.8/s原创 2018-02-04 13:57:22 · 759 阅读 · 0 评论 -
Spark安装部署
一 下载Scala和Spark [root@master opt]# wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz [root@master opt]# wget http://d3kbcqa49mib13.cloudfront.net/spark-2.0.0-bin-hadoop2.7.tgz 二 安装原创 2018-02-03 22:56:39 · 337 阅读 · 0 评论 -
Spark计算模型
一 Spark程序示例 数据处理流水线: val file=sc.textFile("hdfs://XXX") //1 输入与构造RDD val errors=file.filter(line=>line.contains("ERROR")) //2 转换Transformation errors.count() //输出Action 归原创 2018-02-03 20:02:24 · 680 阅读 · 1 评论 -
RDDs的特性
一 RDDs的血统关系图 Spark维护着RDDs之间的依赖关系和创建关系,叫做血统关系图。 Spark使用血统关系图来计算每个RDD的需求和恢复丢失的数据。 二 延迟计算(Lazy Evaluation) Spark对RDDs的计算是,他们第一次使用action操作的时候 这种方式在处理大数据的时候特别有用,可以减少数据的传输 Spark内部记录metadata表名tran...原创 2019-09-30 19:27:16 · 451 阅读 · 0 评论