
spark
文章平均质量分 92
java大数据编程
多年互联网一线实战经验,先后任开发工程师、架构师等职位。 精通Java、Python、Shell多种编程语言,对大数据和机器学习都有深入研究。
展开
-
spark core之共享变量(九)
简介 spark执行操作时,可以使用驱动器程序Driver中定义的变量,但有时这种默认的使用方式却并不理想。集群中运行的每个任务都会连接驱动器获取变量。如果获取的变量比较大,执行效率会非常低下。每个任务都会得到这些变量的一份新的副本,更新这些副本的值不会影响驱动器中的对应变量。如果驱动器需要获取变量的结果值,这种方式是不可行的。 spark为了解决这两个问题,提供了两种类型的...原创 2018-08-26 23:18:51 · 225 阅读 · 0 评论 -
spark基本概念(二)
spark基本概念主要有:Application、Job、Stage、Task、ClusterManager、Executor、Driver、DAGScheduler、TaskScheduler原创 2018-08-25 23:35:46 · 236 阅读 · 0 评论 -
spark简介(一)
spark是一个用于大规模数据处理的统一计算引擎。适用于各种各样原先需要多种不同的分布式平台处理的场景,包括批处理、迭代计算、交互式查询、流处理。通过统一的框架将各种处理流程整合到一起。本文主要内容有:spark特性、spark生态栈、spark用户及用途、spark简史原创 2018-08-25 23:27:39 · 1806 阅读 · 1 评论 -
spark core之读写数据(八)
spark支持多种数据源,从总体来分分为两大部分:文件系统和数据库。 本文主要内容有:文件系统支持的存储格式(普通文本文件、JSON、CSV、SequenceFile)、数据库(JDBC连接、HBase、ElasticSearch)。原创 2018-08-25 20:34:53 · 871 阅读 · 0 评论 -
spark core之数据分区(七)
spark最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布可以减少网络开销,极大地提升整体性能。 本文主要内容有:分区器(HashPartitioner、RangePartitioner)、影响分区的算子操作、repartition和partitionBy的区别、repartition和coalesce的区别、实例分析。原创 2018-08-23 22:48:36 · 320 阅读 · 0 评论 -
spark core之键值对操作(六)
键值对RDD(pair RDD)是spark中许多操作所需要的常见数据类型,通常用来进行聚合计算。 本文主要内容有:创建Pair RDD、Pair RDD转化操作(聚合、分组、连接、排序)、Pair RDD行动操作。原创 2018-08-23 22:43:03 · 261 阅读 · 0 评论 -
spark core之RDD编程(五)
spark提供了对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个分布式的数据集合,数据可以跨越集群中的多个机器节点,被分区并行执行。 本文内容有:五大特性、创建RDD(并行化集合、读取外部数据源)、RDD操作(转化操作、行动操作、缓存)、容错机制(Lineage、Checkpoint)原创 2018-08-23 22:36:43 · 184 阅读 · 0 评论 -
spark快速入门(四)
spark框架是用scala写的,运行在Java虚拟机(JVM)上。支持Python、Java、Scala或R多种语言编写客户端应用。 本文主要内容有:下载Spark、解压Spark、Spark主要目录结构、运行案例及交互式Shell、使用spark shell进行交互式分析、独立应用。原创 2018-08-23 22:31:04 · 364 阅读 · 0 评论 -
spark sql之读写数据(十二)
Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。当只使用一部分字段时,Spark SQL可以智能地只扫描这些字段,而不会像hadoopFile方法一样简单粗暴地扫描全部数据。SparkSQL之读写数据主要内容有:Parquet、JSON、Hive表、JDBC连接关系型数据库。原创 2018-08-27 18:15:55 · 803 阅读 · 0 评论 -
spark sql之RDD转换DataSet(十一)
简介 Spark SQL提供了两种方式用于将RDD转换为Dataset。 - 使用反射机制推断RDD的数据结构 当spark应用可以推断RDD数据结构时,可使用这种方式。这种基于反射的方法可以使代码更简洁有效。通过编程接口构造一个数据结构,然后映射到RDD上 当spark应用无法推断RDD数据结构时,可使用这种方式。反射方式scala// For...原创 2018-08-27 16:48:56 · 766 阅读 · 0 评论 -
spark sql之快速入门(十)
spark sql快速入门主要内容有:Spark SQL前世今生(Hive&Shark、Shark&SparkSQL)、简介(SQL和DataFrame/DataSet)、DataFrame与DataSet创建及操作、SQL操作。原创 2018-08-27 16:10:13 · 192 阅读 · 0 评论 -
spark运行模式(三)
spark运行模式包括:本地模式、本地集群模式、standalone模式、yarn模式及mesos模式。原创 2018-08-25 23:36:56 · 552 阅读 · 1 评论