
大数据架构
文章平均质量分 91
入门Filnk
zhousenshan
现在的一切都是为将来的梦想编织翅膀,让梦想在现实中展翅高飞
展开
-
Flink与Spring Boot集成实践:搭建实时数据处理平台
在当今数据风暴的时代,实时数据处理已经成为众多企业关注的热点。Apache Flink作为一个高性能、可扩展的实时计算框架,在实时数据处理领域占据着举足轻重的地位。Spring Boot则以其快速开发、简化配置而广受欢迎,将两者结合,我们可以快速地搭建起一个实时数据处理平台。本文将详细讲述如何将Flink应用集成到Spring Boot项目中,为你开启实时数据处理的大门。本教程详细介绍了如何将 Apache Flink 集成到 Spring Boot 应用中,从而构建出一个能够处理实时数据流的系统。转载 2024-06-23 16:20:13 · 786 阅读 · 0 评论 -
Impala的介绍、使用和原理架构
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)当中的Dremel实现而来,其中旧三篇论文分别是(BigTable,GFS,MapReduce)分别对应我们即将学的HBase和已经学过的HDFS以及MapReduce。转载 2024-03-18 21:50:24 · 225 阅读 · 0 评论 -
基于Flink构建全场景实时数仓
进入主页,点击右上角“设为星标”比别人更快接收好文章本文目录:一. 实时计算初期二. 实时数仓建设三. Lambda架构的实时数仓四. Kappa架构的实时数仓五. 流批结合的实时数仓。转载 2023-12-16 08:39:14 · 338 阅读 · 0 评论 -
关于数仓建设及数据治理的超全概括
数仓整体流程。转载 2023-12-16 08:35:00 · 245 阅读 · 0 评论 -
一文读懂大数据实时计算(好文收藏)
本文分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。转载 2023-12-16 08:29:09 · 709 阅读 · 0 评论 -
Flink DataStream API-数据源、数据转换、数据输出
Flink中可以很方便的使用自定义数据源,只需要实现SourceFunction接口即可。比如实现一个随机产生某10个学生的N此考试分数@Override@Override@Override'}';Sink这个词很形象,中文意思“水槽”,寓意:数据流像水一样,源源不断的,经过水槽流向各种目的地。Flink可以使用DataStream API将数据流输出到文件、Socket、外部系统等。转载 2023-11-19 15:27:48 · 592 阅读 · 0 评论 -
5分钟了解Flink状态管理
本文主要介绍了Flink的状态和状态管理,以及Demo和相关代码,希望对你有帮助!转载 2023-11-19 10:07:19 · 110 阅读 · 0 评论 -
10分钟入门Flink--架构和原理
相信你读完上一节的对Flink已经有初步了解了。这是继第一节之后的Flink入门系列的第二篇,本篇主要内容是是:了解Flink运行模式、Flink调度原理、Flink分区、Flink安装。转载 2023-11-19 09:16:32 · 648 阅读 · 0 评论 -
10分钟入门Flink--了解Flink
Flink是一个框架和分布式处理引擎,用于对无边界和有边界的数据流进行有状态的计算。Flink是原生的流处理系统,但也提供了批处理API,用于基于流式计算引擎处理批量数据的计算能力,真正实现了批流统一。Flink支持有状态的计算。在流式计算过程中将算子的中间结果保存在内存或者文件系统中,等下一个事件进入算子后可以从之前的状态中获取中间结果,以便计算当前的结果,从而无需每次都基于全部的原始数据来统计结果,极大地提升了系统性能。转载 2023-11-19 09:15:27 · 652 阅读 · 0 评论 -
4万字50张图玩转Flink面试体系大全
这个很好理解,因为Flink一般使用场景大多数为窗口实时计算,计算的是即时数据,当存在一个计算历史数据累计的需求时显得捉襟见肘,因此需要有方法能够保持前面的数据状态。这个很好理解,因为Flink一般使用场景大多数为窗口实时计算,计算的是即时数据,当存在一个计算历史数据累计的需求时显得捉襟见肘,因此需要有方法能够保持前面的数据状态。一般Flink部署模式除了Standalone之外,最常见的为Flink on Yarn和Flink on K8s模式,其中Flink on Yarn模式在企业中应用最广。转载 2023-11-19 08:50:07 · 293 阅读 · 0 评论 -
全网最详细4W字Flink入门笔记(下)
首先需要构建对应的TableEnviroment创建关系型编程环境,才能够在程序中使用Table API和SQL来编写应用程序,另外Table API和SQL接口可以在应用中同时使用,Flink SQL基于Apache Calcite框架实现了SQL标准协议,是构建在Table API之上的更高级接口。在Flink实际开发过程中,可能会遇到source 进来的数据,需要连接数据库里面的字段,再做后面的处理,比如,想要通过id获取对应的地区名字,这时候需要通过id查询地区维度表,获取具体的地区名。转载 2023-11-19 08:43:25 · 205 阅读 · 0 评论 -
全网最详细4W字Flink全面解析与实践(上)
在 Apache Flink 中,分区(Partitioning)是将数据流按照一定的规则划分成多个子数据流或分片,以便在不同的并行任务或算子中并行处理数据。另外,Spark Streaming中的流计算其实是微批计算,实时性不如Flink,还有一点很重要的是Spark Streaming不适合有状态的计算,得借助一些存储如:Redis,才能实现。因此,在深入学习Flink之前,建议先浏览我之前关于Spark的文章,这将为你提供扎实的基础,并帮助在学习Flink时能更好地举一反三,加深对其理解。转载 2023-11-19 08:40:04 · 263 阅读 · 0 评论 -
深入浅出:10行Flink WordCount程序背后的万字深度解析
我们开始对数据流做处理,计算数据流中单词出现的频次。如果输入数据流是“Hello Flink Hello World“,这个程序将统计出Hello的频次为2,Flink和World的频次为1。在大数据领域,词频统计(WordCount)程序就像是一个编程语言的HelloWorld程序,它展示了一个大数据引擎的基本规范。麻雀虽小,五脏俱全,从这个样例中,我们可以一窥Flink设计和运行原理。图 1 Flink样例程序示意图。转载 2023-11-12 16:51:33 · 283 阅读 · 0 评论 -
Flink入门宝典(详细截图版)
Flink诞生于欧洲的一个大数据研究项目StratoSphere。该项目是柏林工业大学的一个研究性项目。早期,Flink是做Batch计算的,但是在2014年,StratoSphere里面的核心成员孵化出Flink,同年将Flink捐赠Apache,并在后来成为Apache的顶级大数据项目,同时Flink计算的主流方向被定位为Streaming,即用流式计算来做所有大数据的计算,这就是Flink技术诞生的背景。转载 2023-10-29 17:21:34 · 92 阅读 · 0 评论