Flink风控项目开发_Platina_Tomato的博客-优快云博客

Flink风控项目开发

关注

文章平均质量分 85

本专栏用于记录个人在国内某大型互联网公司的Flink项目开发过程中的心得体会，及开发中遇到的一些问题和解决办法。目前该项目包括风控、机器学习。会根据个人时间不定时更新。

关注数：文章数：5 文章阅读量：12983 文章收藏量：22

作者: Platina_Tomato

这个作者很懒，什么都没留下…

展开

剖析Flink出现数据倾斜和解决办法

数据倾斜定义：是指在大规模并行处理的数据中，其中某个运行节点处理的数据远远超过其他部分，这会导致该节点压力极大，最终出现运行失败从而导致整个任务的失败。数据倾斜原理：目前的大数据处理框架，如 Flink、Spark、Hadoop 等之所以能处理高达千亿的数据，是因为这些框架都利用了分布式计算的思想，集群中多个计算节点并行，使得数据处理能力能得到线性扩展。在实际生产中 Flink 都是以集群的形式在运行，在运行的过程中包含了两类进程。其中 TaskManager 实际负责执行计算的 Worker，在

原创 2021-03-20 14:13:26 · 5133 阅读 · 1 评论
Flink 风控项目的开发与迭代

最近比较忙，先码住，有时间会写一个四个月的Flink风控项目的开发和迭代过程

原创 2020-07-08 09:24:41 · 461 阅读 · 0 评论
排查生产环境中的反压问题

不同框架的反压对比StormStorm 从 1.0 版本以后引入了全新的反压机制，Storm 会主动监控工作节点。当工作节点接收数据超过一定的水位值时，那么反压信息会被发送到 ZooKeeper 上，然后 ZooKeeper 通知所有的工作节点进入反压状态，最后数据的生产源头会降低数据的发送速度。Spark StreamingSpark Streaming 在原有的架构基础上专门设计了一个 RateController 组件，该组件利用经典的 PID 算法。向系统反馈当前系统处理数据的几个重要属性：

原创 2020-06-06 14:45:12 · 358 阅读 · 0 评论
Flink开发项目中遇到的一些问题总汇（持续更新）

问题解决：1、(Constants.A, Constants.B) 是定位到具体配置2、设置flink全局变量env.getConfig.setGlobalJobParameters(C)但是某些算子可能用到非全局变量中的一些配置例如：map、process中open 函数中的配置需要局部配置变量。 3、map和process的联系：map方法不允许缺少数据，也就是原来多少条数据，处理后依然是多少条数据，只是用来做转换。本次开发map函数用来将sour

原创 2020-09-27 18:39:34 · 2588 阅读 · 0 评论
Flink项目开发、上线全流程报错集合加处理办法（持续更新，附原因解决办法）

1、由于自己启动任务用的是root用户、未使用FlinkProject 用户产生以下报错org.apache.flink.client.program.ProgramInvocationException: Could not retrieve the execution result. (JobID: 9ebe0758cd287126758d57b15fb5e5a3) at org.apache.flink.client.program.rest.RestClusterClient.submitJob

原创 2020-09-27 18:40:07 · 4445 阅读 · 0 评论

Flink风控项目开发

作者: Platina_Tomato

剖析Flink出现数据倾斜和解决办法

Flink 风控项目的开发与迭代

排查生产环境中的反压问题

Flink开发项目中遇到的一些问题总汇（持续更新）

Flink项目开发、上线全流程报错集合加处理办法（持续更新，附原因解决办法）