
spark
文章平均质量分 78
spark
five小点心
阳光开朗孔乙己
展开
-
【Spark】算子实现delete SQL语句
spark计算出来后,得到dataframe,需要删除dataframe中的ids。原创 2024-08-15 19:59:51 · 486 阅读 · 0 评论 -
Spark 和 MapReduce 的对比
容错性是指系统在面对故障、错误或者异常情况时能够保持正常运行,并能够从故障中恢复或继续进行操作的能力。数据在处理中,由于数据规模庞大、且分布在多个计算节点上,节点故障可能导致任务中断或数据丢失。原创 2023-06-20 14:12:53 · 5097 阅读 · 0 评论 -
spark 和 flink 的对比
的数据模型是(Resilient Distributed Dattsets),这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的 Spark Streaming 是通过(micro-batches),即,所以严格意义上,还不能算作流式处理。原创 2023-06-19 21:01:54 · 3259 阅读 · 0 评论 -
大数据技术之SparkSQL——数据的读取和保存
SparkSQL提供了通用的保存数据和数据加载的方式。根据不同的参数读取,并保存不同格式的数据。SparkSQL默认读取和保存的文件格式为Parquet。原创 2023-05-08 20:17:49 · 3932 阅读 · 0 评论 -
大数据技术之Spark Streaming概述
Spark 1.5 以前版本,用户如果要限制 Receiver 的数据接收速率,可以通过设置静态配制参数“”的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其它问题。比如:producer 数据生产高于 maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。为了更好的协调数据接收速率与资源处理能力,1.5 版本开始 Spark Streaming 可以动态控制数据接收速率来适配集群数据处理能力。原创 2023-04-27 00:05:32 · 1367 阅读 · 0 评论 -
SparkSQL写MySQL经典50题
例行佘赞~原创 2023-04-08 20:18:30 · 1687 阅读 · 0 评论 -
大数据技术之Spark SQL——UDF/UDAF函数
*自定义聚合函数类:计算年龄平均值1. 继承UserDefineAggregateFunction2. 重写方法*/// 输入数据的结构Array(// 缓冲区数据的结构:BufferArray(// 函数计算结果的数据类型:Out// 函数的稳定性// 缓冲区初始化// 根据输入的值更新缓冲区数据// 缓冲区数据合并// 计算平均值。原创 2023-04-10 18:09:13 · 529 阅读 · 1 评论 -
大数据技术之Spark SQL——解析JSON字符串
sc.textFile读取数据源,并对结构化数据进行拆分。原创 2023-04-11 18:28:19 · 1890 阅读 · 1 评论 -
大数据技术之Spark——Spark SQL
我们之前学习过hive,hive是一个基于hadoop的SQL引擎工具,目的是为了简化mapreduce的开发。由于mapreduce开发效率不高,且学习较为困难,为了提高mapreduce的开发效率,出现了hive,用SQL的方式来简化mapreduce:hive提供了一个框架,将SQL转换成mapreduce来执行。执行的效率不会因此提升,但开发效率会大大提高。原创 2023-04-06 19:06:06 · 5836 阅读 · 2 评论 -
大数据技术之Spark(五)——RDD持久化
数据会被重复读取。如果想要提高性能,需要数据不被重复读取。那么就需要在数据传输给reduceByKey之前,先将数据放到一个缓存(文件)中,这样就可以不用重复读了。如下图所示:我们把这种操作称为持久化操作。原创 2023-04-03 19:59:37 · 951 阅读 · 3 评论 -
大数据技术之Spark(四)——RDD依赖关系
我们之前在maven中使用过的依赖,即在创建项目的时候需要用到哪些其他的项目,或者第三方的模块/类库,我们需要依赖于它,这就是。在spark中,如果A用到了B,我们就称A依赖于B,B用到了C,那么B依赖于C。此时,A和C的关系称为(maven框架),在spark中我们称这种关系为。同样的,如果RDD1依赖于RDD2,RDD2依赖于RDD3,如:val rdd1 = rdd.map(_*2)那么我们称呼相邻的两个RDD的关系为。多个连续的RDD的依赖关系,称之为。。原创 2023-04-03 16:40:05 · 1146 阅读 · 0 评论 -
大数据技术之Spark(三)——RDD序列化
从计算的角度,算子以外的代码都是在Driver端执行,算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,会导致算子内经常会用到算子外的函数,这样就形成了闭包的效果。如果使用的算子外的数据无法序列化,就意味着无法传值给Executor端执行,就会发生错误。所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。原创 2023-04-02 22:58:55 · 464 阅读 · 0 评论 -
【spark报错】 java. lang. NoClassDefFoundError: org/apache/spark/sql/SparkSession$
provided表明该包只在编译和测试的时候用,所以在启动的时候,是没有找到当前需要的环境。在【pom】中有【scope】的这个子节点,把这个子节点的限制去掉就行。原创 2023-03-31 12:34:43 · 864 阅读 · 0 评论 -
大数据技术之Spark(二)——RDD常用算子介绍
RDD 的操作分为和。就是从一个 RDD 产生一个新的 RDD;就是进行实际的计算。我们把RDD方法也称为算子。所以转换操作和行动操作一般也被叫做和。原创 2023-03-31 11:34:07 · 3812 阅读 · 0 评论 -
大数据技术之Spark(一)——Spark概述
Apache Spark是一个开源的、强大的分布式查询和处理引擎,它提供MapReduce的灵活性和可扩展性,但速度明显要快上很多;拿数据存储在内存中的时候来说,它比Apache Hadoop 快100倍,访问磁盘时也要快上10倍。原创 2023-03-29 20:12:43 · 2944 阅读 · 0 评论