
spark
不要回头看
好好码代码 好好写博客 该是你的总会来 不该是你的终不会来
展开
-
spark中的bug记录
kafkaStream.foreachRDD(new VoidFunction<JavaRDD<ConsumerRecord<Object, Object>>>() { public void call(JavaRDD<ConsumerRecord<Object, Object>> t){ ...原创 2018-09-06 09:01:15 · 271 阅读 · 0 评论 -
spark streaming 流程
1.读取kafka,先用redirect方式读取到数据,再取出变量DStream读取到offset,再用读取成rdd的方式读取kafka(适合批量处理,并且spark的该方法需要offset),此处需要两次读取kafka相同的数据,暂时没找到更合适的方案原因是redirect读取到的DStream暂时没有找到很好的方式处理2.kafka记录有且只处理一次高可用的实现:kafka commi...原创 2018-09-06 22:24:56 · 732 阅读 · 0 评论 -
spark 的坑
spark配置的主机名和地址必须在/etc/hosts 中对应 此主机名是linux命令行root@主机名原创 2018-09-10 18:29:55 · 211 阅读 · 0 评论 -
SparkStreaming操作Kafka
Kafka为一个分布式的消息队列,spark流操作kafka有两种方式:一种是利用接收器(receiver)和kafaka的高层API实现。一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后引入)。 Receiver方式基于Receiver方式实现会利用Kakfa的高层消费API,和所有的其他Receivers一样,接受到的数据会保存到excutor...转载 2018-09-18 10:52:31 · 198 阅读 · 0 评论 -
Spark Streaming+Kafka
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在S...转载 2018-09-20 18:05:01 · 436 阅读 · 0 评论 -
auto.offset.reset介绍及spark无法读取属性对于old message
我们先看看最新的官方文档说明:What to do when there is no initial offset in Kafka or if the current offset does not exist any more on the server (e.g. because that data has been deleted):earliest: automatically ...原创 2018-10-10 14:48:47 · 456 阅读 · 0 评论