
spark
fxflyflyfly
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【spark】datafram操作
链接:https://blog.youkuaiyun.com/dabokele/article/details/52802150 作者写的很好很全面原创 2019-12-13 15:15:36 · 159 阅读 · 0 评论 -
【spark】7.集群上运行以及配置
文章目录spark运行架构驱动器节点(driver)执行器节点(executor)使用spark-submit部署应用在yarn上运行spark spark运行架构 首先在分布式环境下,spark集群采用的主/从结构,即在一个集群中有一个节点负责中央协调,协调个分布式工作节点,这个节点被称为驱动器节点(Driver),与之对应的工作节点被称为驱动器节点(executor) spark应用通过一个...原创 2019-12-13 15:13:24 · 259 阅读 · 0 评论 -
【spark】连接habse数据库
1.启动hadoop,hbase start-all.sh start-hbase.sh # 确认启动成功 jps 应该会看到下面这些进程 2375 SecondaryNameNode 2169 DataNode 2667 NodeManager 2972 Jps 2045 NameNode 2541 ResourceManager 2.创建hbase测试库 hbase shell crea...原创 2019-12-11 16:37:27 · 289 阅读 · 0 评论 -
【spark】Spark性能调优:数据倾斜调优
前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 1.数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计...转载 2019-11-19 15:42:08 · 199 阅读 · 0 评论 -
【spark】Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因...转载 2019-11-19 15:40:37 · 323 阅读 · 0 评论 -
【spark】Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总...转载 2019-11-19 15:38:07 · 213 阅读 · 0 评论 -
【spark】6.编程进阶
文章目录累加器广播变量 累加器 提供了将工作节点中的值聚合到启动器程序中的简单语法。常见用途是调试时对作业执行过程中的事件进行计数。 # 例如累加空行 file = sc.textFile(inputFile) # 创建累加器并初始化为0 blankLines = sc.accumulator(0) def extractCallSigns(line): global blankLines i...原创 2019-11-15 10:21:16 · 404 阅读 · 1 评论 -
【spark】5.数据读取存储
文章目录分类文件格式文本文件JSON逗号分隔值与制表符分隔值csvSequenceFile对象文件Hadoop输入输出格式Spark SQLApache HiveJSON数据库java数据库hbase 分类 文件格式与文件系统:本地文件和分布式文件系统(NFS,HDFS等) spark SQL中的结构化数据:json和apache hive在内的结构化数据源 数据库与键值存储 文件格式 文本文...原创 2019-11-14 16:34:11 · 235 阅读 · 0 评论 -
【spark】4.键值对操作
文章目录创建PairRDDPairRDD转化操作聚合操作reducceByKey()foldByKey()combineByKey()并行度调优数据分组连接数据排序行动操作数据分区 键值对RDD是Spark中许多操作所需要的常见数据类型,被称为pairRDD,提供了并行操作各个键或者跨界点重新进行数据分组的操作接口。 创建PairRDD 1.使用map()函数将普通RDD转换为PairRDD。 l...原创 2019-11-14 15:32:11 · 456 阅读 · 0 评论 -
【spark】pyspark中数据类型转换pandas_df,rdd,spark_df
pandas_df创建 添加链接描述 RDD创建 添加链接描述 spark_df创建 一、创建DF或者读入DF 以sql输出的结果创建df,这种形式最常用。 from pyspark.sql import SparkSession from pyspark.sql import Row from pyspark.sql.types import * from pyspark.sql.functio...原创 2019-11-05 11:01:02 · 5671 阅读 · 0 评论 -
【Spark】3.RDD编程
本节主要针对Spark对数据的核心抽象——弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。在Spark中对数据的所有操作不外乎创建RDD,转换已有RDD以及调用RDD操作进行求值。在这一切的背后Spark自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD基础...原创 2019-10-15 17:16:56 · 377 阅读 · 0 评论 -
【Spark】2.Spark下载和入门
Spark下载 Spark下载地址 http://spark.apache.org/downloads.html 选择包类型为“Pre-built for Hadoop 2.7 and later”,然后直接点击Download Spark,可以得到压缩包。也可以下载历史版本,不过注意Spark1.4之前不支持python3和R语言。 对于压缩包,直接解压即可,注意windowns系统路径中不要有...原创 2019-10-15 16:42:32 · 693 阅读 · 0 评论 -
【Spark】1.spark初识
概念 Spark是一个用来实现快速而通用的集群计算的平台。 1.在速度方面,Spark扩展了广泛使用的MapReduce计算模型,高效的支持更多的计算模式,包括交互式查询和流处理。Spark的另外一个主要特点是能够在内存上计算。 2.Spark提供的接口十分丰富,除了Python,Java,Scala和SQL的简易使用API以外,Spark还可以和其他大数据工具密切配合使用。例如H...原创 2019-10-15 16:37:04 · 270 阅读 · 0 评论