
Flink风控项目开发
文章平均质量分 85
本专栏用于记录个人在国内某大型互联网公司的Flink项目开发过程中的心得体会,及开发中遇到的一些问题和解决办法。目前该项目包括风控、机器学习。会根据个人时间不定时更新。
Platina_Tomato
这个作者很懒,什么都没留下…
展开
-
剖析Flink出现数据倾斜和解决办法
数据倾斜定义:是指在大规模并行处理的数据中,其中某个运行节点处理的数据远远超过其他部分,这会导致该节点压力极大,最终出现运行失败从而导致整个任务的失败。数据倾斜原理:目前的大数据处理框架,如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据,是因为这些框架都利用了分布式计算的思想,集群中多个计算节点并行,使得数据处理能力能得到线性扩展。在实际生产中 Flink 都是以集群的形式在运行,在运行的过程中包含了两类进程。其中 TaskManager 实际负责执行计算的 Worker,在原创 2021-03-20 14:13:26 · 5133 阅读 · 1 评论 -
Flink 风控项目的开发与迭代
最近比较忙,先码住,有时间会写一个四个月的Flink风控项目的开发和迭代过程原创 2020-07-08 09:24:41 · 461 阅读 · 0 评论 -
排查生产环境中的反压问题
不同框架的反压对比StormStorm 从 1.0 版本以后引入了全新的反压机制,Storm 会主动监控工作节点。当工作节点接收数据超过一定的水位值时,那么反压信息会被发送到 ZooKeeper 上,然后 ZooKeeper 通知所有的工作节点进入反压状态,最后数据的生产源头会降低数据的发送速度。Spark StreamingSpark Streaming 在原有的架构基础上专门设计了一个 RateController 组件,该组件利用经典的 PID 算法。向系统反馈当前系统处理数据的几个重要属性:原创 2020-06-06 14:45:12 · 358 阅读 · 0 评论 -
Flink开发项目中遇到的一些问题总汇(持续更新)
问题 解决:1、(Constants.A, Constants.B) 是定位到具体配置2、设置flink全局变量env.getConfig.setGlobalJobParameters(C)但是某些算子可能用到非全局变量中的一些配置例如:map、process中open 函数中的配置需要局部配置变量。 3、map和process的联系:map方法不允许缺少数据,也就是原来多少条数据,处理后依然是多少条数据,只是用来做转换。本次开发map函数用来将sour原创 2020-09-27 18:39:34 · 2588 阅读 · 0 评论 -
Flink项目开发、上线全流程报错集合加处理办法(持续更新,附原因解决办法)
1、由于自己启动任务用的是root用户、未使用FlinkProject 用户产生以下报错org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 9ebe0758cd287126758d57b15fb5e5a3) at org.apache.flink.client.program.rest.RestClusterClient.submitJob原创 2020-09-27 18:40:07 · 4445 阅读 · 0 评论