六(2)、sparkstreaming代码出现的一些情况分析

  1. 作业流程:
    mysql binlog——(steamsets)——>kafka——(sparkstreaming、sparksql)——>redis
    除了把结果数据放redis以外,还有把验证数据放redis
  2. 如果kafka中堆积很多数据,sparkstreaming一批次消费,导致验证redis里面的数据不准确,导致结果数据错误
    解决办法:在判断语句之间,加入println,使得在driver端执行了之后再执行后面的语句
  3. 运行sparkstreaming的机子获取当前时间A与进来的binlog时间B有差距,如果以时间A判断时间B来获取数据,会在跨天的时候不准确。
    解决办法:除了与时间A匹配的数据拿到以外,如果有时间A+1Day的时间B的数据,也取过来
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值