- 博客(9)
- 收藏
- 关注
原创 StructedStreaming Excalty-onece的优越性
(1)数据在从kafka出来的时候,每一条数据对应的offsets会写到wal,将对应的offset写入到文件一旦程序挂掉,从wal offset log里面恢复最新的数据,(2)structed streaming的state store机制对于excatly-once的作用首先会维护一个result table在内存中,这里面只存结果数据(比如聚合好的数据),当作数据恢复时,...
2019-04-15 15:54:43
354
2
原创 StructedStreaming总结
1.首先会有一个rawtable 和resultTableresultTable会存着聚合或者join时的中间结果值,每run一次batch,首先根据watermark判断resulttable 里面哪些结果数据应该清除掉,2.window与watermark当一个window被trigger时,会生成一个result,这个result会马上sink到db里面,假如window最终...
2019-02-17 21:38:50
785
原创 hdfs提交多个表出现的问题
当提交多个表,自己认为串行执行时,实际上集群也为所有的表分配了资源,进而占用大量的资源,其主要原因为yarn资源的公平分配, 通过调整excutor-number来限制内存,同时也会出现内存爆掉的情况,提高excutors-memory 值即可 ...
2018-12-25 10:14:16
175
原创 关于common framework做的时候出现的问题
1.自己负责的任务一定要保证质量2.做归一化的处理比较重要3.Oracle本身数据不能实现分布式的读取,因此可以考虑使用多线程的方式去读取数据4.将数据归一化成字符串类型后,对后期的处理非常有用5.rdd dataFrame list之间的相互转换(1)add new value of one columndataFrame.map(row=>Row.fromSeq(...
2018-12-25 10:13:41
453
原创 异常检测系统的相关总结
1.rawData部分的总结(1)行转列sum(case when condition then 0 else 1)row number(order by a,b,c)(2)common 部分traing:rawData=>traning=>save to hdfs monthlypredict:rawData=>featureData=>pred...
2018-12-25 10:12:33
549
原创 suport公司的大数据平台遇到的问题及解决方案总结
1.nohup日志文件中打印schema时,只有一个root?答:打印schema时,若只有一个root单词,说明过滤的时候有问题(很有可能将数据全部过滤掉了)。当时我出现的问题是,application.conf文件中,filter.string这个配置出现大小写的问题。2.数据量比较少(大概比标准的要少1000来行)答:在建表的时候多指定几个primary key3.日志中出现...
2018-12-20 10:11:41
298
原创 spark使用db(Oracle,hive)的一些注意事项
1.在spark 2中saveAsTable 时,要先spark.sql("use telemetry"),并且在save之前这个表一定不存在否则会报save的类型不一致这个exception2.spark在load比较大的表时,直接load会出现卡死的情况,因此可以通过多线程,分成多个时间段,每个时间段起一个线程来load数据3.spark在使用Oracle JDBC执行Oracle...
2018-12-20 10:11:19
249
原创 structed streaming输出模式
structed streaming会维护一个result table,每次trigger以后对里面的数据做改变,改变包括更新旧的数据以及添加新的数据假如sql没有做聚合,那么result table 的改变只有添加假如sql做了聚合,那么result table包括添加和更新旧的数据outputModecomplete:把整个result table输出到外部存储appe...
2018-12-20 10:01:31
721
原创 structed streaming 源码分析
1.load的源码分析 load=>lookupDataSource说白了就是构造logic plan 以及为每一个logic 生成df,一定要注意此时所有df中没有数据2.structed streaming为什么可以实现增量导入主要是因为会维护一个state,这个state就是用来存最新的update的结果,此时我们假如去做group by 那么后面的都相当于key...
2018-12-14 16:15:21
302
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅