
Spark
稷下小鲤鱼
此间少年最风流
展开
-
Spark-Core-RDD
Spark是什么?速度非常快:基于流式计算,速度要比hadoop快100倍,离线计算比mr快10倍左右易用:spark提供了超过80个高阶算子,并支持多种编程语言:Java/Scala/R/Python通用性:提供了几乎大数据中所有的技术栈随处运行:yarn、standalone总而言之,它是一个集成了离线计算、实时计算、图计算、机器学习,并包括sql查询等等的计算框架RDD:弹性 分布式 数据集弹性:如果内存充足,那么数据的存储和计算都在内存中进行,如果内存不足,那么就溢出到磁盘.原创 2020-10-24 16:34:00 · 218 阅读 · 0 评论 -
Spark Sql
简介SparkSQL,它是spark生态技术体系中构建在Spark Core基础上的基于SQL的计算模块,它是spark生态中用于处理结构化数据的模块。Spark Sql也可以将半结构化数据转换成结构化数据处理。RDD弹性分布式数据集,相较于DataFrame和DataSet而言,RDD是更底层的数据结构,而且目前是使用最多的,但是肯定会被DataFrame和DataSet取代。DataFrameDataFrame是构建在RDD基础上的,它比RDD多了一个Schema(元数据:描述数据的数据),它原创 2020-10-29 22:43:23 · 126 阅读 · 0 评论 -
Structured Streaming
Structured Streaming是Spark新提出的一种实时流的框架,它和Spark Streaming之间有什么区别呢?一、为什么要有StructedStreaming?Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。它支持从多种数据源获取数据,包括Kafka、Flume、以及TCP socket等,从数据源获取数据之后,可以使用诸如map、reduce和window等高级函数进行复杂算法的处理。最后,还可以将处理结果存储到原创 2020-10-28 20:00:20 · 271 阅读 · 0 评论 -
Spark 基础教程
Spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark特点运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引擎,以支持循环数据流与内存计算,基于内存的执行速度可比Hadoop MapReduce快上百倍,基于磁盘的执行速度也能快10倍。容易使用:Spark支持使用Scala、Java、Python和R语言进行编程,简洁的API设计有助于用户轻松构建并行程序,并且可以通过Spark Shell进行交互式原创 2020-10-27 22:56:51 · 1673 阅读 · 0 评论 -
Spark Streaming
一、Spark Core算子二、Spark Session算子三、Spark Streaming算子transform(黑名单过滤)spark Streaming的算子几乎都是作用在DStream中,而DStream的本质是RDD,如果想要直接操作DStream中的RDD,需要借助算子transfromnc -lk ip port数据:197.129.76.123##2020-10-19 11:11:11##GET /taobao/image/common/1.jpg Http/1.1##2原创 2020-10-19 20:02:15 · 132 阅读 · 0 评论