spark
挽歌亽朽年
平生不做皱眉事,世上应无切齿人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark SQL
非结构化数据与结构化数据Spark SQL是spark用来处理结构化数据的Apache Spark组件 :与最基本的Spark API——RDD API不同的是Spark SQL接口提供了更多关于数据结构和正在执行的计算的相关信息在Spark内部,Spark可以使用这些信息来对运算进行额外的优化Spark SQL的特点 :1.Spark SQL使用的数据来源Spark SQL可以使用...原创 2020-03-12 20:55:44 · 324 阅读 · 0 评论 -
Spark Core概述
Spark Core是spark的核心与基础,实现了Spark的基本功能,包含任务调度,内存管理,错误恢复与存储系统交互等模块Spark Core中包含了对Spark核心API——RDD API(弹性分布式数据集)的定义:RDD表示分布在多个计算节点上可以并行操作的元素集合,是spark的核心抽象Spark Core提供Spark最基础与最核心的功能,主要包括以下功能:(1)SparkCon...原创 2020-03-02 21:03:01 · 2338 阅读 · 0 评论 -
DataFrame的基本使用
SparkSession函数及说明 :创建SparkSession创建DataFrame从csv文件中创建DataFrame——sqlContext代码 :创建结果 : pyspark.sql.dataframe.DataFrame从MySQL表中创建DataFrame代码 :创建结果 : pyspark.sql.dataframe.DataFrameshow() :...原创 2020-03-02 20:51:27 · 382 阅读 · 0 评论 -
Spark RDD编程
RDD概述RDD既弹性分布式数据集,是Spark主要的编程抽象RDD作为数据结构,本质上是一个只读的分区(partition)记录集合一个RDD可以包含多个分区,每个分区就是一个dataset片段RDD编程接口Spark中提供了通用接口来抽象RDD,具体包括以下四个方面:分区信息,是数据集的最小分片依赖关系,指向欺负RDD函数,基于父RDD的计算方法划分策略和数据位置的元数据...原创 2020-02-20 13:02:35 · 241 阅读 · 0 评论 -
运行Spark程序的方法
Spark shell:提供了一个强大的交互式分析数据的工具,我们可通过Scala或Python语言来使用pyspark在启动时便会自动生成一个驱动器程序,所以只需要在Spark shell中输入项运行的操作就可以了pyspark --master MasterURL --name NAME在Spark shell中运行语句sc可直接得到驱动器程序的相关信息jupyter Notebo...原创 2020-02-19 21:30:50 · 636 阅读 · 0 评论 -
Spark的基本使用
启动Spark shell打开命令行或终端——pysparkimport pyspark导入pyspark查看spark context信息读入文件:打印文件内容可利用collect()函数,它能够以数组的形式,返回RDD数据集的所有元素lines = spark.read.text(‘file:///home/wordcound.txt’).rddfor i in lines...原创 2020-02-19 21:28:25 · 393 阅读 · 0 评论 -
Spark的应用场景
Spark的生态圈1.Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成一套完整的生态系统2.Spark可以部署在资源管理器YARN之上,提供一站式大数据解决方案3.Spark所提供的的生态系统可对应以下三种场景:复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间基于实时数据的数据处理:通常时间跨度在数百毫秒...原创 2020-02-16 13:22:00 · 5831 阅读 · 1 评论 -
Spark的核心组件
Spark的出现Apache Spark:1.一个大规模数据处理同一分析引擎2.最初由美国加州破壳利大学的AMP实验室开发3.基于内存计算的大数据并行计算框架4.用于构建大型的、低延迟的数据分析应用程序Spark的特点1.速度快采用先进的DAG调度程序查询优化器物理执行引擎2.容易使用提供了超过80种高级运算符支持多种语言进行编程Spark Shell交互式编程3.完...原创 2020-02-16 13:18:07 · 339 阅读 · 0 评论 -
Spark产生的背景
大数据时代:数据量大数据种类繁多数据增长速度快大数据不同层面及技术:大数据关键技术:分布式存储GFS/HDFSBigTable/HBaseNoSQL(键值、列族、图形、文档数据库)NewSQL(如 : SQL Azure )分布式处理框架:HadoopStormFlinkSparkhadoop:hadoop是Apache软件基金会旗下的一个开源式计算平台为用户提...原创 2020-02-15 21:46:26 · 924 阅读 · 0 评论
分享