
spark streaming
朱继业1993
这个作者很懒,什么都没留下…
展开
-
sparkstreaming读取文件读取不到数据
今天用了下sparkstreaming读取hdfs文件或本地目录文件,发现文件内容一直不会被处理,使用了下面两种方法都不行,阅读源码并开启DEBUG后发现,textFileStream后面也是调用fileStream方法,并且newFilesOnly传入的为true,这个值为true时,spark只会处理文件创建时间大于spark启动时间的文件。。这个比较坑,老文件无论如何都不会被处理。刚开始的时候这个值传入true并且也使用新文件,也是一样没有处理,开了DEBUG后才发现有一个guava的错误,由于版原创 2020-09-28 18:03:52 · 1118 阅读 · 0 评论 -
kafka0.10版本spark只能读到一个分区的数据,错误Beginning offset xxx is the same as ending offset
sparkstreaming 2.1.0 kafka 0.10.1.1 topic三个partition相关配置代码:val kafkaParam = Map[String,Object]( "key.deserializer"->classOf[StringDeserializer] ,"value.deserializer"->classOf[StringDeserial...原创 2018-06-26 12:39:57 · 2077 阅读 · 1 评论 -
使用sparksubmit提交application时始终找不到三方jar 提升class not found
spark2.1.0 hadoop 2.6.0(ambari)spark中使用了三方jar并且运行模式为yarn时,执行如下命令:./spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --executor-memory 3g --executor-cores 1 --class com.test.Test /tm...原创 2018-06-26 12:50:45 · 4428 阅读 · 3 评论 -
sparkstreaming消费kafka如何保证输出结果只会产生一次?(事务性)
最近开始使用sparkstreaming+kafka0.10,使用过程中碰到问题: steaming采用的direct方式 ,(这种方式和receiver方式的对比性能会好很多),spark计算完数据之后有一个结果入库操作,现在问题来了,采用自动提交的时候程序二次启动经常会出现重复消费的情况,并且怎么保证这个结果只生产一次呢?首先介绍一下sparkstreaming内部是怎么做到消息只计算一...原创 2018-07-05 17:54:01 · 4512 阅读 · 4 评论