前面咱们介绍了线上服务和离线批量处理中涉及的一些问题和方案,这章我们将分享的是在线流式处理中的问题和方案;
流失数据处理系统与其他类型系统对比,数据流可能无穷尽,数据上游可能多方,下游也可能多方,基于这种数据流特点,我们需要一个消息系统(message system);
为了适应业务节点的多变特性,如新增消息产生方,减少消息处理方等,维持整个系统的稳定等,普遍通过消息代理(message broker)来处理和分发消息, 其中涉及消息队列和容错等功能, 可通过设置消息开端(offset)来区分每个消息消费者(consumer)当前所处理的信息;
关于消息代理容错,消息代理在接受到消息时会将消息接入日志,并放到内存,如果crash, 可快速从日志中回复消息; 而且还可通过两个小技巧-最小批量(micro-batching, 基本想法是对消息进行分批)和检测点(check-point,基本想法是对消息进行设点备份,如果crash, 按最近一个点来重新开始),来减少出错是带来的损失;
流式处理中可应用的场景:
- 在线数据分析,事件发生的频次和统计分析
- 在线特征挖掘和监控,欺诈检测,价格波动, 机器状态监控
- 系统状态监控
在流式数据处理过程中,涉及三个较为重要的时间,消息生成时间(message produce time), 消息队列时间(time send to server), 消息处理时间(message process time); 在分析数据时需要区分这个时间的不同;