第一章 :状态化流处理概述
数据处理框架
把数据处理框架分为两类
- 事物型处理:企业日常运营业务中的各类应用
- 企业资源规划(ERP),客户关系管理(CRM)还有一些基于Web的应用
- 独立的数据处理层:也就是应用程序本身:连接外部用户或者服务,处理操作传入的数据,每次操作都会访问数据库读取或者更新状态
- 数据存储层:事物型数据库,外部操作就会访问这个数据库
- 这种“单点”在扩容更新会有问题,现在用微服务——解耦,接口通信,部署到不同的容器中
- 企业资源规划(ERP),客户关系管理(CRM)还有一些基于Web的应用
- 分析型处理
- 需要对不同类型的数据进行联合分析的时候,建一个数据仓库(专门处理分析查询),将事务性数据库中的数据拷贝到仓库中就是ETL (提取-转换-加载)
- 对于数据仓库就需要定期整合报告或者ad-hoc query(即席查询),过程中就用到了Hadoop生态的组件,完成数据仓库和一系列操作,代替关系型数据库,用HDFS
- 在建立数仓和对数仓中的数据进行分析的过程就用到了流处理技术
状态化处理
- 事件流当中对于跨记录转换都需要状态,每次处理新事件的时候能够读写之前的状态