前言
Flink 的定位是一个大数据流式处理引擎,处理流式数据(Data Flow)。数据并不是收集好的,而是像水流一样,是一组有序的数据序列,逐个到来、逐个处理。由于数据来到之后就会被即刻处理,具有良好的实时性。Flink 适合的场景,就是需要实时处理数据流的场景
1. 电商和市场营销
举例:实时数据报表、广告投放、实时推荐
在电商行业中,网站点击量是统计 PV(页面访问量,即PageView)、UV(独立访客,即Unique Visitor)的重要来源。网站获得的点击数据可能是连续且不均匀的,还可能在同一时间大量产生,这是典型的数据流。
如果把它们全部收集起来,再去分析处理,就会面临很多问题:首先,需要很大的空间来存储数据;其次,收集数据的过程耗去了大量时间,统计分析结果的实时性就大大降低了;另外,分布式处理无法保证数据的顺序,如果只以数据进入系统的时间为准,可能导致最终结果计算错误。
Flink 就可以做到直接处理数据流。
2. 物联网(IOT)
举例:传感器实时数据采集和显示、实时报警,交通运输业
物联网是流数据被普遍应用的领域。各种传感器不停获得测量数据,并将它们以流的形式
传输至数据中心。而数据中心会将数据处理分析之后,得到运行状态或者报警信息,实时地显示在监控屏幕上。所以在物联网中,低延迟的数据传输和处理,以及准确的数据分析通常很关键。
交通运输业也体现了流处理的重要性。比如说,如今高铁运行主要就是依靠传感器检测数
据,测量数据包括列车的速度和位置,以及轨道周边的状况。这些数据会从轨道传给列车,再从列车传到沿途的其他传感器;与此同时,数据报告也被发送回控制中心。因为列车处于高速行驶状态,因此数据处理的实时性要求是极高的。如果流数据没有被及时正确处理,调整意见和警告就不能相应产生,后果可能会非常严重。
3. 物流配送和服务业
举例:订单状态实时更新、通知信息推送
在很多服务型应用中,都会涉及订单状态的更新和通知的推送。这些信息基于事件触发,不均匀地连续不断生成,处理之后需要及时传递给用户。这也是非常典型的数据流的处理。
4. 银行和金融业
举例:实时结算和通知推送,实时检测异常行为
银行和金融业是另一个典型的应用行业。用户的交易行为是连续大量发生的,银行面对的
是海量的流式数据。由于要处理的交易数据量太大,以前的银行是按天结算的,汇款一般都要隔天才能到账。所以有一个说法叫作“银行家工作时间”,说的就是银行家不仅不需要 996,甚至下午早早就下班了:因为银行需要早点关门进行结算,这样才能保证第二天营业之前算出准确的账。这显然不能满足快速交易的需求。在全球化经济中,能够提供 24 小时服务变得越来越重要。现在交易和报表都会快速准确地生成,跨行转账也可以做到瞬间到账,还可以接到实时的推送通知。这就需要能够实时处理数据流。
另外,信用卡欺诈的检测也需要及时的监控和报警。一些金融交易市场,对异常交易行为的及时检测可以更好地进行风险控制;还可以对异常登录进行检测,从而发现钓鱼式攻击,从而避免巨大的损失