Spark
好色仙人的徒弟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkSql连接数据库报错:py4j.protocol.Py4JJavaError
检查连接数据库的参数是否写错,包括驱动名,账号,密码等等。原创 2021-04-06 19:44:45 · 358 阅读 · 0 评论 -
SparkStreaming面试题
1. SparkStreaming第一次运行不丢失数据 kafka参数auto.offset.reset设置为earliest从最初的偏移量开始消费数据。 2. SparkStreaming精准一次性消费 导致非精准一次性消费的原因: - 偏移量写入,但消费数据时宕机(丢失数据) - 消费数据,但写入偏移量时宕机(重复消费数据) 解决: 事务。将消费数据和偏移量写入绑定为原子性操作,一起成功或失败。 3. SparkStreaming控制每秒消费数据的速度 设置spark.streaming.kafk原创 2020-08-27 11:12:21 · 4737 阅读 · 0 评论 -
Spark在创建RDD时设置分区不起作用
今天在练习Spark代码的时候遇到一个奇怪的现象: 这是我的原始数据,在idea中创建一个txt文件: 这是我的代码: val rdd: RDD[String] = sc.textFile("input/test.txt", 3) // 设置分区数为3 rdd.saveAsTextFile("output") 结果出现了四个分区: 要想解决这个问题,首先应该明确两个点: 分区数量到底是多少? 每个分区到底存储什么数据? 遇事不决查看源码。点开textFile方法的源码: 在代码的最后一行,我看到了原创 2020-07-13 12:14:24 · 466 阅读 · 0 评论
分享