2020-10-05【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（1）

最新推荐文章于 2025-12-14 13:00:00 发布

原创最新推荐文章于 2025-12-14 13:00:00 发布 · 152 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#企业数据湖 #flink

企业数据湖同时被 2 个专栏收录

23 篇文章

订阅专栏

flink

3 篇文章

订阅专栏

数据湖的数据摄取层是核心，负责处理多样化的数据流和结构。Apache Flink作为开源流处理框架，以其高吞吐、低延迟、精确一次性处理等特性在数据处理中脱颖而出，尤其适合需要高效实时分析的场景。

一、数据湖背景中的数据摄取层

数据摄取层是数据湖的一个核心功能层，如果需要处理来自不同应用的流式和批量数据，则该层至关重要。

1、数据摄取层

数据摄取指的是获取或导入数据用于中间处理或存储到数据库的过程。

数据摄取层的一些特性：

能以简单、快捷的方式处理输入的数据
能处理多种不同的数据流
能够处理多种数据结构
集成了多种持久化存储机制
支持多种传输协议
能与多种不同的系统或技术连接

2、数据摄取层技术路线

3、什么是apache Flink

apache Flink 是一个开源的分布式流式处理框架，能够满足各类应用的高吞吐、高可用、精确的数据处理要求。

二、为什么使用apache Flink

当然Spark也可以满足该需求，但是Flink相较于spark还是有很多优势的：

抽象层次较高且简单易用的api
依靠flink的多项内置特性进行快速的轻量级数据处理
能够接入每个流式数据，并在其之上执行所需分析
低延迟的数据处理
支持精准的一次性处理
高吞吐
容错
易于配置
开源
对延迟抵达或乱序数据流提供精确的处理结果
天然有状态

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qihoo233

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

基于Flink+Iceberg构建企业级实时数据湖

2401_83412087的博客

04-20

1334

看完上述知识点如果你深感Java基础不够扎实，或者刷题刷的不够、知识不全面小编专门为你量身定制了一套针对知识面不够，也莫慌！还有一整套的，可以瞬间查漏补缺全都是一丢一丢的收集整理纯手打出来的。

Flink流数据采集笔记(一):介绍/特点/初识流处理

YyyZzzLllx的博客

07-24

644

Flink学习笔记第一篇:介绍Flink/Flink特点/初识无界流处理Flink

参与评论您还未登录，请先登录后发表或查看评论

activemq书籍及工具

09-28

activemq书籍及工具 activemq书籍及工具 activemq书籍及工具 activemq书籍及工具 activemq书籍及工具

网易云课堂学习-ActiveMQ入门

tiankongyun123的博客

06-10

311

ActiveMQ是什么是Apache出品的，最流行的，能力强劲的开源消息总线。是一个完全支持JMS1.1和J2EE1.4规范的JMS Provider实现，尽管JMS规范已经出台很久了，但JMS在如今的J2EE应用中仍然扮演着很重要的角色。 JMS规范 java message service即java消息服务应用程序接口是一个java平台中关于面向消息中间件（MOM）的 API,用在两个应用程序之间，或分布式系统中发送消息，进行异步通信。java消息服务是一个与具体平台无关的API。 JMS的对象模型

有效数据湖摄取的5个最佳实践

Tybyqi的博客

12-07

650

在不断波动的技术环境和客户市场政策的世界中，数据已成为最大的商业资产之一。它加强并提高了组织在竞争中取得领先地位的能力。因此，它是一个关键的价值创造者，其管理，定期维护和存储对于规划未来持续成功的企业来说非常重要。多年来技术的进步在数据创建和存储方面都是有利的，但它们永远不足以进行有效的数据管理。有时，企业很难利用大量信息来获益。这是数据湖可以提供帮助的地方。 数据湖允许企业持有，管理和利用不同...

2020-10-06【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（2）

qihoo233的博客

10-06

154

三、Flink的工作原理 1、Flink架构 Flink架构的关键是三个重要组件的协同工作 Client（客户端）：代码解析，类型抽取，代码优化，图构建，传输任务至jobmanager，取回结果 job manager（作业管理器）：任务调度，checkpoint，任务追踪，收集维护元数据。 task manager（任务管理器）：任务在此执行 2、flink架构的核心原则向用户屏蔽了大多数内部运行机制细节 api与实际执行逻辑解耦声明式编程无需或需要较少的调试统一的流式处理模

2020-10-07【学习笔记】【企业数据湖】八、基于Apache Flink处理数据（3）

qihoo233的博客

10-07

117

四、Flink的API Flink中的基本操作可以用简单的术语进行表述 Flink连接到数据源，然后执行业务逻辑相关操作最后将结果输出到sink Flink可以处理两种形式的数据（实时，批量）所以其有两种api DataStream API：实时数据流分析，JAVA和scala语言可以调用 DataSet API：批量数据处理，Java，scala，python可以调用该api 1、DataStreamAPI 范例：首先获取StreamExecutionEnvironment对象

2020-10-01【学习笔记】【企业数据湖】六、基于Apache Flume的流式数据获取（3）

qihoo233的博客

10-01

164

十一、Flume事务管理数据从客户端或者上一个sink进入当前的agent会触发一个事务，这种事务称为sourcetx。当事件在channel中持久化并收到确认信息后。sourcetx宣告结束。在agent的范围内，第二个事务是sinktx，该事务开始于sink轮询数据。十二、Flume的其他组件 1、channelProcessor（持久化channel数据） 2、interceptor（过滤） 3、channel selector（与interceptor类似） 4、sinkGrou

Kafka - 基于Flink的实时数据处理实战

最新发布

千淘万漉虽辛苦，吹尽狂沙始到金

12-14

1万+

本文介绍如何利用Kafka和Flink构建实时数据处理系统。Kafka作为高吞吐分布式消息队列，负责收集用户行为数据；Flink作为流处理引擎，实现实时消费、清洗和聚合数据。文章详细演示了从环境搭建、模拟数据生产到Flink作业开发的完整流程，包括事件时间处理、窗口计算和结果输出等核心环节。通过代码示例展示了如何实现毫秒级延迟的实时分析，并比较了Flink与其他流处理框架的优势。该方案适用于实时数仓、风控和推荐等需要即时响应的业务场景。

《基于Apache Flink的流处理》笔记

千里之行，始于足下

06-06

1055

本文提供了Apache Flink学习资源的思维导图（1-11章）和参考资料，包括源码仓库、官方博客、技术会议等。思维导图清晰展示了章节内容结构，技术文档链接指向Flink 2.0中文版。文末还给出了使用Maven创建Scala项目的命令模板，并附有Flink架构图，为学习者提供了全面的技术学习路径和开发工具指引。（98字）

《网易-数据中台》学习笔记

qq_40133628的博客

11-13

786

记录阅读《网易-数据中台》时的心得和读书笔记

Flink2.0学习笔记：stream-api source源：jdbc 流式处理（自定义支持多数库的连接池）和批次处理(使用mysql-flax 预加载数据)

livemegoodboy的博客

08-30

392

Flink2.0学习笔记：stream-api：jdbc 流式处理（自定义支持多数库的连接池）和批次处理(使用mysql-flax 预加载数据)

实验3-实时数据流处理-Flink

m0_74216612的博客

12-05

2034

- 注释符为‘-- '注意有个空格。-- 注释符为‘-- '注意有个空格。任意点开一个，在监控参数中选择numRecordsInPerSecond可以查看每秒处理数据速度。这里的密码和主机号（192.168.88.101）应该改成你自己的密码和主机号。这里的密码应该改成你自己的。（当然博主本人的是123456）这篇文章里面有另外两篇文章的链接，点进去就能够看到。-- Flink 的核心库 -->

IT学习笔记--Flink

xudasong123的博客

06-03

1602

Data Sources 就字面意思其实就可以知道：数据来源。Flink做为一款流式计算框架，它可用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时的处理些实时数据流，实时的产生数据流结果，只要数据源源不断的过来，Flink 就能够一直计算下去，这个 Data Sources 就是数据的来源地。Flink 中你可以使用 StreamExecutionEnvironment.addSource(sourceFunction) 来为你的程序添加数据来源。

2020-09-21【学习笔记】【企业数据湖】一、数据湖概念概览（1）

qihoo233的博客

09-21

1543

一、什么是数据湖 数据湖是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理分析及传输。 数据湖与企业的关系 数据湖可以给企业带来多种能力。例如实现数据的集中管理二、数据湖如何帮助企业实现数据治理与数据世系通过应用机器学习与人工智能技术实现商业智能预测分析，如领域特定的推荐引擎信息追踪与一致性保障根据对历史分析生成新的数据维度有一个集中式的能存储所有企业数据的数据中心，有利于实现一个针对数据传输优化的数据服务帮助组织和企业做出更多灵活的关于企业增长的决策

2020-09-27【学习笔记】【企业数据湖】五、基于Apache Sqoop的批量数据获取

qihoo233的博客

09-27

794

一、数据湖背景中的数据获取 1、数据获取层 2、批量数据获取--技术路线图二、为什么使用sqoop sqoop是一款非常常用的用于向ApacheHadoop传输数据的工具 1、sqoop简史最早由cloudera开发维护，分为1.X,2.X版本，区别很大 2、sqoop的优势支持多种结构化数据 sqoop可以将etl中某些环境剔除，转移到hadoop中执行 sqoop可以以并行的方式传输数据帮助从主机中读取序列文件，并集成至目标系统又有可扩展机制，可以构建或拦截多种 c

2020-09-23【学习笔记】【企业数据湖】三、Lambda架构：一种数据湖实现模式（1）

qihoo233的博客

09-23

447

一、什么是Lambda架构 Lambda具有的要素：一套模式和标准。Lambda机构定义了一套面向大数据应用的模式和准则。更重要的是，它允许同时查询历史数据和实时增长的数据。并且获得期望的分析视图。处理历史数据和实时数据技术无关和通用性。Lambda架构是一种通用的模式，完全不依赖于任何技术，而且任何技术只要能满足需求，都可以在Lambda架构中应用。 Lambda架构清楚的吧责任划分到不同的功能木块/层中。它按照层来划分职责，完美地遵循了设计模式中的关注点分离原则领域无关。作为一种

2020-10-02【学习笔记】【企业数据湖】七、基于Apache Kafka构建消息层（1）

qihoo233的博客

10-02

243

一、数据湖背景中的消息层 1、消息层 数据湖中的消息层应该具有以下功能：该层的一项核心功能是对源头和终端进行解耦能够处理来自应用服务器节点每秒几百MB的高速信息流能够处理TB甚至PB级数据能够低延迟、高吞吐的处理消息能够保证信息按照时间有序传输向多个消费者传递相同消息的能力。能够对运营统计数据进行分析，聚合来自不同数据源的数据并分析借助廉价硬件实现高性能能够实现最低程度的数据增加与转换 2、技术路线图 3、什么是Apache Kafka 详情见wiki百科，Apa

2020-10-09【学习笔记】【企业数据湖】九、基于Apache Hadoop存储数据（2）

qihoo233的博客

10-09

237

二、为什么使用Hadoop 我们选择使用Hadoop存储数据的原因如下： Hadoop可以轻松地处理大量结构化、半结构化数据。实施成本低，因为他可以使用普通商用硬件并根据需求伸缩 Hadoop拥有一个处于不断增长状态的社区 Hadoop自身的库在构建时充分考虑了可用性，不依赖于底层硬件灵活的处理各种类型的数据 Hadoop具有比较高的实用性 Hadoop天生具有云化的属性 Hadoop天然具有健壮性和容错性 Hadoop拥有强大的计算能力 Hadoop拥有很高的运算速度 Hado

深入学习Apache Flink：大数据处理框架指南

Apache Flink是一个开源的流处理框架，它用于对大规模数据流进行高吞吐量、低延迟的处理。Flink在2008年由Apache软件基金会孵化，最初是作为Stratosphere项目的一部分。随后在2014年，Flink成为一个独立的顶级开源...