《基于 Apache Flink 的流处理》阅读笔记

本文介绍了Apache Flink的状态化流处理,包括数据处理框架的分类、事件驱动型应用、数据管道和流式分析。文章详细阐述了Flink如何利用内存和内嵌式数据库保存状态,并提供了启动和运行Flink集群的步骤,以及执行示例任务的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 :状态化流处理概述

数据处理框架

把数据处理框架分为两类

  • 事物型处理:企业日常运营业务中的各类应用
    • 企业资源规划(ERP),客户关系管理(CRM)还有一些基于Web的应用
      • 独立的数据处理层:也就是应用程序本身:连接外部用户或者服务,处理操作传入的数据,每次操作都会访问数据库读取或者更新状态
      • 数据存储层:事物型数据库,外部操作就会访问这个数据库
    • 这种“单点”在扩容更新会有问题,现在用微服务——解耦,接口通信,部署到不同的容器中
  • 分析型处理
    • 需要对不同类型的数据进行联合分析的时候,建一个数据仓库(专门处理分析查询),将事务性数据库中的数据拷贝到仓库中就是ETL (提取-转换-加载)
    • 对于数据仓库就需要定期整合报告或者ad-hoc query(即席查询),过程中就用到了Hadoop生态的组件,完成数据仓库和一系列操作,代替关系型数据库,用HDFS
  • 在建立数仓和对数仓中的数据进行分析的过程就用到了流处理技术

状态化处理

  • 事件流当中对于跨记录转换都需要状态,每次处理新事件的时候能够读写之前的状态
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值