
Bigdata_实时平台
文章平均质量分 82
分享一些在建设实时数据平台的知识点,希望可以帮助自己和别人
KeinoJust
敷衍别人就是敷衍自己,如果对自己的输出尚且不认真,那么是没有人愿意停下脚步去欣赏的,你若盛开,蝴蝶自来~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
为什么在实时计算中定义UDF函数中open方法会执行多次?
实时UDF中open方法执行次数描述背景:执行报错:问题排查:排查:疑惑:解决:引申:总结:描述背景:在使用blink进行开发IP匹配的时候,因为是通过UDF来实现的,所以打算在UDF的open方法中预先读取IP信息数据,【open方法对于一个实例Task只调用执行一次,算作是预处理,类似hive的UDF中setup方法】存放在集合中。然后处理集合,按照有序排序,最终使用二分查找去寻找当前IP对应的地址信息。具体实现和背景介绍在之前的这篇文章:链接—>Hi一起来了解实时数据的IP解析吧执行报错原创 2021-12-25 13:46:22 · 2243 阅读 · 1 评论 -
Hi一起来了解实时数据的IP解析吧
实时ETL解析IP本文关键词:前提:IP信息上传OSS:实现代码:基于存储到内存:基于存储在本地:打包上传:本文关键词:实时ETLIP解析Blink–【阿里实时计算平台 Based on Flink】前提:之前的文章介绍了大数据离线平台的IP实时匹配,在那边文章中我说了将IP合并内容存储在ODPS【Hi一起来了解下大数据平台的IP解析吧】,是因为离线数据量一般很大,数据量增加之后离线任务启动的实例就很多,相当于全部的实例在同一时间去存储了IP合并内容的组件拉取数据,这个是危险的,所以不建议将原创 2021-12-25 12:12:24 · 2600 阅读 · 0 评论