QYHuiiQ
谁动了我的代码
展开
-
Spark DStream之有状态操作实现WordCount
在之前的案例中,实现的DStream是通过每个采集周期内独立进行逻辑处理的,在某些业务场景中,可能是需要将每个周期内的计算结果进行汇总,这时就需要一种有状态的采集。可以看到最终态的count值确实是所有周期内的结果汇总在一起的。原创 2022-11-24 20:11:35 · 380 阅读 · 0 评论 -
Spark DStream之无状态操作实现WordCount
可以看到控制台中是以2秒的周期进行数据采集的,同一周期内的数据一起处理。这样就实现了DStream中近实时、微批量的数据处理。原创 2022-11-23 20:52:12 · 620 阅读 · 0 评论 -
Spark SQL之IDEA中的应用
【代码】Spark SQL之IDEA中的应用。原创 2022-11-20 19:51:20 · 748 阅读 · 0 评论 -
Spark SQL之DataSet简单操作
【代码】Spark SQL之DataSet简单操作。原创 2022-11-16 20:16:00 · 822 阅读 · 0 评论 -
SparkSQL之DataFrame的简单操作
【代码】SparkSQL之DataFrame的简单操作。原创 2022-11-15 20:45:35 · 446 阅读 · 0 评论 -
Spark自定义累加器实现WordCount
【代码】Spark自定义累加器实现WordCount。原创 2022-11-05 21:04:36 · 213 阅读 · 0 评论 -
Spark自定义分区器
【代码】Spark自定义分区器。原创 2022-11-03 21:33:30 · 653 阅读 · 0 评论 -
Spark join操作
所以在使用join操作的时候要慎重,因为在这个过程中涉及到笛卡尔积的计算会造成join之后的数据量大量增长,引起性能问题。当两个RDD中的key没有同时存在时,只会将共同存在的key的值进行连接,各自单独存在的key会丢掉。rdd1中单独存在的key为x,和rdd2中单独存在的key为y的元素都不会进行连接。同一个key在某个RDD中出现多次时,会做一个类似于笛卡尔积的操作,进行两两连接。rdd1调用右外连接时,会以rdd2为主,将rdd2中的所有key进行连接。原创 2022-10-30 16:20:34 · 584 阅读 · 0 评论 -
Spark交集/差集/并集/拉链
一定要注意,在Spark中使用zip时,必须是两个RDD中的元素个数相同才可以,否则报错。原创 2022-10-25 21:33:55 · 1082 阅读 · 0 评论 -
Spark sort算子
在多个分区的情况下,如果使用sort,会将所有分区的数据放在一起进行排序,排序后再重新分区,而不是在各自的分区内进行排序,在该算子实现过程中是有shuffle操作的。默认排序是升序,也就是sortBy中的参数二表示升序默认是true,如果需要降序排序,可以将其设置为false。可以看到结果中是将原RDD中的所有数据放一起进行排序的,之后再进行分区。可以看到运行结果也是先对全局RDD进行排序,再分组。对于字符串类型的数据,会按照字典序进行排序。原创 2022-10-25 21:11:38 · 709 阅读 · 0 评论 -
Spark coalesce算子
出现这样的结果是因为,coalesce算子默认不会打乱原来分区内的数据,即不会拆散原来某个分区内的数据重新组合,这样也就会可能导致数据倾斜,所以我们可以加上第二个参数设置为true,来表示在缩减分区时允许数据重新组合(是否shuffle)来实现数据均衡。好像并没有像我们想的那样会将原来RDD中的前三个元素放在一个分区,后三个元素放在一个分区。原来RDD中的前两个元素被分到了一个分区,后两个元素被分到了一个分区。这样,缩减分区后的数据相对来讲就不会出现不平衡的情况。原创 2022-10-25 19:52:38 · 818 阅读 · 0 评论 -
Spark测试元素操作前后分区不变
可以看到,原始元素中1和2都在分区00000中,做乘操作后,对应的2和4也在分区00000中,以上测试说明在操作元素前后,分区不变。在Spark中,对原始的RDD中的元素进行操作,例如乘法操作,操作前后,元素对应的值所在的分区不变。生成了两个目录,并在各自目录下根据我们的参数配置,各自生成了两个分区文件。原创 2022-10-20 21:19:14 · 233 阅读 · 0 评论 -
Spark中flatMap的操作
【代码】Spark中flatMap的操作。原创 2022-10-20 20:48:51 · 651 阅读 · 0 评论 -
Spark中对分区编号的操作
【代码】Spark中获取分区编号。原创 2022-10-19 21:23:14 · 433 阅读 · 0 评论 -
Linux环境搭建spark3 yarn模式
这里一定要注意hostname中不能包含下划线!搭建好之后启动hadoop集群。至此,spark的搭建基本完成。原创 2022-10-12 22:05:56 · 917 阅读 · 0 评论 -
Spark之WordCount案例
【代码】Spark之WordCount案例。原创 2022-10-08 21:44:20 · 449 阅读 · 0 评论 -
运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration
【代码】运行Spark报错org.apache.spark.SparkException: A master URL must be set in your configuration。原创 2022-10-08 21:16:36 · 1213 阅读 · 0 评论 -
Windows环境下配置Spark3.0.0
如果双击的时候是闪了一下,那么说明安装成功。至此,Spark的环境就搭建好了。原创 2022-10-08 21:00:31 · 858 阅读 · 0 评论 -
运行Spark报错scalac: Token not found
【代码】运行Spark报错scalac: Token not found。原创 2022-10-08 19:36:43 · 908 阅读 · 1 评论