前言
你是不是也有过这种感觉?
当你坐在电脑前,面对海量数据,心里想着:“这些数据到底怎么处理才不浪费?”大部分时候,你不是在分析数据,而是在等待数据处理完成。实时处理流数据和批处理离线数据之间的无缝连接似乎是个“技术梦想”,但真的能实现吗?答案是:能!而且,这就是流批一体技术的核心魅力。
那为什么要谈“流批一体”?因为现在的业务需求已经进入“急性子”时代。用户不会再等你几小时甚至几天给出结果,大家都追求实时响应。要是你还在分流处理、批处理那种“你走你的阳关道,我走我的独木桥”思路,抱歉,落伍了。
流批一体的前世今生
流和批处理的历史有点像一对“吵架多年的老夫妻”,彼此不和,但谁也离不开谁。批处理起源很早,最经典的应用场景就是大家熟悉的离线大数据分析。你想象一下那些夜深人静时在后台默默跑着的批处理任务,日复一日地为公司汇总数据、生成报告。但批处理有个问题——不实时!数据从产生到分析,可能已经过去了几小时甚至几天,太慢了。
后来,实时流处理登场了。流处理让企业可以在数据产生的瞬间做出响应,用户在点击网页时就能获得即时反馈,像股票交易、广告推送这种时间敏感的业务尤为受益。不过,流处理虽然实时,但面对大规模数据和复杂分析时,往往显得“力不从心”,在处理深度分析时不如批处理给力。
流和批处理的互补性让人不禁想ÿ