2020-10-05【学习笔记】【企业数据湖】八、基于Apache Flink处理数据(1)

数据湖的数据摄取层是核心,负责处理多样化的数据流和结构。Apache Flink作为开源流处理框架,以其高吞吐、低延迟、精确一次性处理等特性在数据处理中脱颖而出,尤其适合需要高效实时分析的场景。

一、数据湖背景中的数据摄取层

数据摄取层是数据湖的一个核心功能层,如果需要处理来自不同应用的流式和批量数据,则该层至关重要。

1、数据摄取层

数据摄取指的是获取或导入数据用于中间处理或存储到数据库的过程。

数据摄取层的一些特性:

  • 能以简单、快捷的方式处理输入的数据
  • 能处理多种不同的数据流
  • 能够处理多种数据结构
  • 集成了多种持久化存储机制
  • 支持多种传输协议
  • 能与多种不同的系统或技术连接

2、数据摄取层技术路线

3、什么是apache Flink

apache Flink 是一个开源的分布式流式处理框架,能够满足各类应用的高吞吐、高可用、精确的数据处理要求。

二、为什么使用apache Flink

当然Spark也可以满足该需求,但是Flink相较于spark还是有很多优势的:

  • 抽象层次较高且简单易用的api
  • 依靠flink的多项内置特性进行快速的轻量级数据处理
  • 能够接入每个流式数据,并在其之上执行所需分析
  • 低延迟的数据处理 
  • 支持精准的一次性处理
  • 高吞吐
  • 容错
  • 易于配置
  • 开源
  • 对延迟抵达或乱序数据流提供精确的处理结果
  • 天然有状态

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值