
大数据
the_conquer_zzy
计算机科学与技术专业
展开
-
实际经历的Spark应用场景一:小量数据清洗
前言:由于是出于兴趣自学Spark的相关基础知识,工作中我身边也没有合适的场景必须需要使用Spark。比如数据量大到单机跑好几个小时还跑不完等等。我对于Spark的运用也仅限于练习几个例子。所以我一直感受不到Spark的威力,也不清楚哪些场景适合Spark。Spark的适用场景是什么? 这是我几个周以至于直到现在都在思考的问题,因为我工作中并用不上它……。(欢迎各位读者分享下自己经历过的Spark使用场景)但是最近我在工作中遇到一个场景并且用Spark花了几分钟给解决了。 这让我有点高兴,因为我用S原创 2020-08-18 20:12:02 · 513 阅读 · 0 评论 -
Spark RDD Transformation 练习
在过去的几个月里,我断断续续写了Spark,Spark SQL, Spark Streaming相关的文章,自己也对Spark有了一个基本的认识。 但是仅仅这样不能算学会了spark。回想过去一年里看过的书,只有那些写过博客的内容才印象深刻,其他的书甚至都忘了讲什么的。再加上最近我一直在思考怎么才算掌握spark,用spark 能解决什么问题? 正所谓纸上得来终觉浅,绝知此事要躬行。所以我写这篇Spark RDD 练习,帮助我们加深对Spark知识的理解。这篇博客涉及到的知识点有:如何反转pair原创 2020-07-11 22:30:07 · 524 阅读 · 0 评论 -
Spark Streaming(二) Structed Streaming
Spark Streaming(二) Structed Streaming本文详细介绍下Spark Streaming的第二代引擎Structed Streaming,包括Structed Streaming的概述,核心概念,Structed Streaming相关的应用等。Structed Streaming 概述Structed Streaming 有两个关键思想:以处理批量计算的方式对待流计算和与存储系统的事务集成,以提供端到端、只需一次的保证。以处理批量计算的方式对待流计算以处理批量原创 2020-06-06 22:12:56 · 584 阅读 · 0 评论 -
Spark Streaming(一) 基础知识介绍
本文介绍流处理的概念,流处理引擎环境和Apache Spark Streaming概述。流处理批数据处理是指通过固定的输入数据集运行计算逻辑,并在结束时产生结果。这意味着处理将在到达数据集末尾时停止。相比之下,流处理是关于通过无界数据集运行计算逻辑,因此处理是连续且长时间运行的。虽然批处理数据与流数据的区别主要在于有限性,但由于流数据的无界数据性质、实时数据的传入顺序、数据到达的不同速率以及面对机器故障时对正确性和低延迟的期望,流数据处理要比批数据处理复杂得多,也更具挑战性。流处理的挑战流数据原创 2020-05-21 23:45:58 · 681 阅读 · 0 评论 -
SparkSQL 高级篇(一) 聚合操作
SparkSQL 高级篇(一) 聚合操作聚合操作聚合操作是大数据分析过程中一个常用的操作,用来分析汇总数据,或者生成汇总报告。聚合通常需要对整个数据集或一个或多个列进行某种形式的分组,然后对每个组应用聚合函数,如求和、计数或求平均值。Spark提供了许多常用的聚合函数。这里介绍下基本的聚合函数和分组聚合操作函数。首先创建一个用于demo的DataFrameval flight_summa...原创 2020-05-02 00:41:01 · 2001 阅读 · 0 评论 -
Spark SQL(二) DataFrames相关的Transformation操作
Spark SQL(二) DataFrames相关的Transformation操作DataFrames是不可变的,且与其相关的Transformation操作和RDD的相关操作一样都是返回一个新的DataFrame.DataFrames TransformationsselectselectExprfilter/wheredistinct/dropDuplicatessort/o...原创 2020-05-02 00:40:25 · 660 阅读 · 0 评论 -
Spark SQL(一) 如何创建DataFrames
Spark SQL(一) 如何创建DataFramesSpark SQL包含两个主要的部分,第一部分是DataFrames和Datasets, 第二部分是Catalyst optimizer.DataFrames和Datasets是结构性API的展示,定义了操作结构化数据的高层次API,而Catalyst optimizer则是在背后对处理数据的逻辑进行优化,以加速处理数据的速度。结构化数...原创 2020-05-02 00:39:45 · 251 阅读 · 0 评论 -
Spark RDD(三) 键值对RDD相关的转换和动作操作
Spark RDD(三) 键值对RDD相关的转换和动作操作本篇文章主要介绍和key/value pair RDD相关的转换(transformation)和动作(action)操作。键值对RDD和普通RDD不同,在普通RDD中,一行数据代表一个单独的值,比如一个整数或者一个字符串。 而键值对RDD中一行数据是一个元组,在元组中第一个元素是key值,第二个元素值vaule值。 key和value...原创 2020-05-02 00:39:14 · 1558 阅读 · 0 评论 -
Spark RDD(二) RDD的相关行为(Action)操作
Spark RDD(二) RDD的相关行为(Action)操作Action操作会真正触发转换逻辑(转换操作参见上一篇Spark RDD(一))。本文主要介绍常见的Action操作。常见Action操作有以下9种:collect()count()first()take(n)reduce(func)takeSample(withReplacement, n, [seed])take...原创 2020-05-02 00:38:45 · 511 阅读 · 0 评论 -
Spark RDD(一) RDD的创建和转化操作
Spark RDD(一) RDD的创建和转化操作RDD 有几个特点不可变容错并行数据结构内存中计算数据分区和存放丰富的操作函数RDD 的操作行为可以分为两类:转换和行为。转换是一个延迟操作,返回的结果是另外一个RDD。行为是另一种操作,会触发转换逻辑。行为的结果一般是返回一个结果,或者把结果写到磁盘。创建RDD 有3种方式:(1) parallelize一个object...原创 2020-05-02 00:38:09 · 660 阅读 · 0 评论 -
执行“spark.sql()”报错Failed to start database ‘metastore_db’ with class loader
如何解决windows下执行“spark.sql()”报错Failed to start database ‘metastore_db’ with class loader现象描述执行DataFrame的相关操作时可以正常运行,但是执行spark.sql()这个会出现下面的错误Caused by: ERROR XJ040: Failed to start database ‘metastor...原创 2020-05-02 00:36:41 · 1074 阅读 · 0 评论