
spark
文章平均质量分 73
木鬼与槐
(小白一枚)努力努力再努力,加油加油再加油
展开
-
Struct Streaming
spark进行实时数据流计算时有两个工具Spark Streaming:编写rdd代码处理数据流,可以解决非结构化的流式数据Structured Streaming:编写df代码处理数据流,可以解决结构化和半结构化的流式数据。原创 2024-10-14 21:01:15 · 383 阅读 · 0 评论 -
Structured Streaming数据处理流程
Memory Sink,把数据输出到内存中,以表的形式存在,可以使用SparkSQL进行查询,支持append complete模式。上传完数据,执行代码,会一次性将数据输出,为了避免这种事情,可以使用参数‘maxFilesPerTrigger’,设置文件数。append模式,默认的模式,每次只能看到新增的行的内容,不支持聚合操作,一般在进行查询展示时使用。文件的读取方式在实际开发中用的比较少,生产一条数据,就要生成一个文件。1、读取文件数据时,不能指定某个具体文件,而是指定文件所在的目录。原创 2024-10-14 20:51:42 · 1031 阅读 · 0 评论 -
Spark高级用法-自定义函数
用户可以根据需求自己封装计算的逻辑,对字段数据进行计算内置函数,是spark提供的对字段操作的方法 ,split(字段) 对字段中的数进行切割,F.sum(字段) 会将该字段下的数据进行求和实际业务中又能内置函数不满足计算需求,此时就需要自定义行数,完成字段数据的业务处。原创 2024-10-13 20:24:20 · 663 阅读 · 0 评论 -
Spark高级用法-数据源的读取与写入
使用read和write实现数据导入导出读取mysql数据库的原始数据表在将读取到的数据导入数仓中。原创 2024-10-13 20:01:17 · 625 阅读 · 0 评论 -
Spark高级用法-内置函数
2)实现case when 效果判断。4)从指定字段中取当前行最大的一个值。1)获取当前的日期时间和unix时间。1)实现if 效果判断。2)将日期转为时间戳。3)将时间戳转为日期。原创 2024-10-13 17:53:10 · 660 阅读 · 0 评论 -
SparkSQL介绍及使用
Spark SQL是 Apache Spark 用于处理结构化数据(DataFrame和Datasets)的模块。在Spark1.0版本时引入了SparkSQL。原创 2024-10-13 11:36:21 · 1214 阅读 · 0 评论 -
Spark-数据共享
广播变量将Driver中的变量数据传递到Executor的内存中,让Executor的多个task共用变量值。原创 2024-10-11 11:21:26 · 357 阅读 · 0 评论 -
Spark-RDD的宽窄依赖以及Shuffle优化
spark的shuffle的两个部分shuffle wirte 写shuffle read 读会进行文件的读写,影响spark的计算速度spark的shuffle方法类是spark封装好的处理shuffle的方法hashshuffle 类进行的是hash计算spark1.2版本前主要使用,之后引入了sortshufflespark2.0之后,删除了hashshuffle ,从2.0版本开始使用sortshuffle类优化的hashshufulle和未优化。原创 2024-10-11 08:38:01 · 1497 阅读 · 0 评论 -
Spark优化-缓存和checkpoint
如果不适用缓存,rdd3的数据需要经过两次计算,而每次计算也是在内存中计算,很消耗内存,而使用了缓存,可以直接从缓存中直接获取数据,不需要每次对rdd2进行计算缓存和checkpoint也叫作rdd的持久化,将rdd的数据存储在指定位置作用:1-2-提升计算速度。原创 2024-10-11 08:36:10 · 635 阅读 · 0 评论 -
Spark练习json文件-统计问答数据
因为数据量过大,所以使用collect()将会出现下面错误,可以使用take(),只查看前几条。原创 2024-10-10 20:16:13 · 800 阅读 · 0 评论 -
Spark中RDD练习-统计学生数据
Spark的RDD中API提供了丰富的转换操作,但是不直接支持SQL风格的like操作符.使用Scala 的startsWithendsWith或contains方法,或者使用 Python 的或方法。使用正则表达式:在filter转换中使用正则表达式来匹配模式。例如,使用 Scala 的或 Python 的。原创 2024-10-10 14:45:20 · 593 阅读 · 0 评论 -
数据处理方式,线程与进程,多任务,Spark与MR的区别
Spark通过RDD的血统机制来实现容错,如果某个节点失败,可以从血统信息重新计算丢失的数据.MapReduce只要是基于磁盘计算,将数据存储在HDFS上,并在计算工程中频繁读写磁盘.spark有很多部署方式,不同的部署方式决定spark计算时的资源调度方式。Spark是支持内存计算,当内存够大,可以比MapReduce快100倍。依赖单个计算机的资源,处理的数据量较少,当数据量过大时,无法执行。Spark有自己的调度器,可以更高效的管理资源和任务。方式实现多任务计算,提升计算效率。原创 2024-10-09 10:05:32 · 758 阅读 · 0 评论 -
Spark练习-统计不同性别的年龄总和,统计不同性别不同年龄的年龄平均值
虽然两种map不同,但是结果相同。原创 2024-10-09 09:35:04 · 751 阅读 · 0 评论 -
Spark算子使用-Map,FlatMap,Filter,diatinct,groupBy,sortBy
rightOuterJoin右关联:右表数据全部展示,左边右相同数据展示,没有相同数据为空None。leftOuterJoin左关联:左表数据全部展示,右边右相同数据展示,没有相同数据为空None。join内关联:只有共同的才展示。余数相同的数据会放在一起。分组算子用到了哈希算法,准备数据,模拟表关联。原创 2024-10-09 09:08:38 · 712 阅读 · 0 评论 -
Spark练习-RDD创建,读取hdfs上的数据,指定rdd分区
读取单个文件,值输出指定文件的数据.读取到目录,会将整个目录的文件都读取到.如果指定的分区数量不能够整除,则会随机分配文件大小%3 = 值 -- 余数余数/值 占比 超过10%额外会创建一个原创 2024-10-08 21:20:28 · 718 阅读 · 0 评论 -
安装Spark-单机部署,Standalone集群部署,Spark on Yarn实现
SparkSession也是Spark程序中的一个类,功能类似于SparkContext,Spark2.0以后推出的,如果Hadoop生态的程序,例如MR、Hive、Sqoop、Oozie等使用YARN来计算。2-存储实时工具元数据。资源管理和任务调度:将所有从节点的资源在逻辑上合并为一个整体,将任务分配给不同的从节点。使用自己所在节点的资源运行计算进程Executor:给每个计算进程分配一定的资源。YARN支持多种类型程序的运行:MR、Tez、Spark、Flink等。原创 2024-10-07 20:57:08 · 1999 阅读 · 0 评论