
spark基础知识学习和练习
文章平均质量分 54
RDD、sparkSql、Spark Streaming相关学习和练习
是阿威啊
这个作者很懒,什么都没留下…
展开
-
Dstream操作之Socket数据源+Kafka数据源
通过 SparkStreaming 从 Kafka 读取数据,并将读取过来的数据做简单计算,最终打印到控制台。原创 2023-09-06 17:54:23 · 281 阅读 · 1 评论 -
Spark RDD 语法学习笔记
spark 的 RDD算子相关知识积累原创 2023-08-24 11:32:21 · 226 阅读 · 2 评论 -
Spark Streaming之DStream转换操作
每个批次做自己单独的转化操作,没有状态的记录。批次就是RDD,微批次处理结果:实现wordCount。原创 2023-09-07 18:11:40 · 578 阅读 · 1 评论 -
SparkSQL-数据的加载和保存(包含数据库)
适配的文件类型读文件时直接在文件上进行查询: 文件格式.`文件路径`原创 2023-09-05 17:38:53 · 702 阅读 · 1 评论 -
SparkSQL中的自定义函数-UDF&UDAF
自定义聚合函数类:计算年龄的平均值继承org.apache.spark.sql.expressions.Aggregator, 定义泛型IN : 输入的数据类型 LongBUF : 缓冲区的数据类型 Buff ->样例类OUT : 输出的数据类型 Long重写方法(6个)/*** 自定义聚合函数类:计算年龄的平均值* 1. 继承org.apache.spark.sql.expressions.Aggregator, 定义泛型* IN : 输入的数据类型 Long。原创 2023-09-04 15:23:29 · 1710 阅读 · 1 评论 -
SparkSQL 之 DataFrame&DataSet
sparkSQL中的dataframe和dataset的知识记录原创 2023-09-01 15:01:26 · 300 阅读 · 1 评论 -
spark-submit 提交项目到spark集群运行
当在集群上运行程序时,不需要在程序中硬编码master参数,而是使用spark-submit提交应用程序并将master的URL以脚本参数的形式传入。但是,对于本地测试和单元测试,您可以通过“local[*]”来运行Spark程序(请确保本地系统中的cpu核心数够用)master是Spark,Mesos或YARN集群的URL,或者一个特殊的“local [*]”字符串来让程序以本地模式运行。添加maven的pom依赖,根据中文注释更改值。maven-package生成jar包。原创 2023-08-24 15:10:45 · 432 阅读 · 1 评论 -
spark 累加器 练习实战
spark 累加器 练习实战原创 2023-08-24 14:53:58 · 126 阅读 · 1 评论 -
分组聚合类RDD总结
从 shuffle 的角度:reduceByKey 和 groupByKey 都存在 shuffle 的操作,但是 reduceByKey可以在 shuffle 前对分区内相同 key 的数据进行预聚合(combine)功能,这样会减少落盘的数据量,而 groupByKey 只是进行分组,不存在数据量减少的问题,reduceByKey 性能比较。GroupByKey 只能分组,不能聚合,所以在分组聚合的场合下,推荐使用 reduceByKey,如果仅仅是分组而不需要聚合。combineByKey常用。原创 2023-08-24 11:56:34 · 187 阅读 · 1 评论 -
map、flatMapRDD异同点总结
【代码】map、flatMapRDD异同点总结。原创 2023-08-24 11:46:56 · 125 阅读 · 1 评论 -
持久化&检查点&分区器
在本地文件系统中缓存后再collect读取rdd正常,但是从远程hdfs读取rdd正常,但是collect异常。缓存后的rdd可以正常take,foreach等非全量读取,但是无法collect。持久化不一定只用来数据重用,在数据比较重要而执行过程较长的环节中也可以持久化。--缓存在文件中,传参表示缓存级别,不传参表示存在内存。checkpoint,需要落盘,指定路径(一般为hdfs中)rdd.cashe()--缓存,存在内存中。存为文件会在执行完成后删除。原创 2023-08-24 11:40:57 · 64 阅读 · 1 评论 -
spark 读取文件并获取文件名
【代码】spark 读取文件并获取文件名。原创 2023-08-24 11:34:52 · 376 阅读 · 1 评论