
实时计算(数仓)
文章平均质量分 82
大数据分离线和实时两大部分,该专栏主要放置大数据实时相关的内容
KG大数据
这个作者很懒,什么都没留下…
展开
-
Flink流批一体在小米的实践
目录0- 前言1- 小米的大数据发展演变2- 流批一体的平台建设2.1- 元数据管理2.2- 权限管理2.3- 作业调度2.4- Flink 的生态建设3- 流批一体应用场景4- 未来规划0- 前言摘要:本文整理自小米软件开发工程师金风在 Flink Forward Asia 2021 流批一体专场的演讲。本篇内容主要分为四个部分:1- 小米的大数据发展演变2019 年之前,小米的实时计算主要以 SparkStreaming 为主,少部分 Storm,离线计算以 Spark 为主。201原创 2022-04-18 13:32:08 · 637 阅读 · 0 评论 -
实时数仓的企业级实践【有赞】
目录0-前言1-建设背景2-应用场景3-方案设计3.1- 分层设计3.2- 实时ETL3.2.1- 维度补全3.2.1- 幂等处理3.3- 数据验证3.4- 数据恢复4- 项目应用5- 未来展望0-前言随着实时技术的不断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,内容包括以下五个部分:建设背景应用场景方案设计项目应用未来展望1-建设背景实时需求日趋迫切,产品需求和内部决策对于数据实时性的要求越来越迫切原创 2021-10-26 17:59:22 · 375 阅读 · 0 评论 -
实时数据仓库的演进/升级迭代(内容通俗易懂欢迎点赞收藏!!)
目录0-前言1-实时数仓1.02-实时数仓2.03-实时数仓3.04-总结0-前言数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。1-实时数仓1.0传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要原创 2021-10-14 16:52:22 · 528 阅读 · 0 评论 -
Spark性能调优之RDD算子调优(好文点赞收藏!!)
目录0-RDD算子调优1-RDD复用2-尽早进行数据filter3-读取大量小文件-用wholeTextFiles4-mapPartition和foreachPartition5-filter+coalesce/repartition(减少分区)6-并行度设置7-repartition/coalesce调节并行度8-reduceByKey本地预聚合9-使用持久化+checkpoint10-使用广播变量11-使用Kryo序列化12-总结0-RDD算子调优不废话,直接进入正题!1-RDD复用在对RDD进原创 2021-10-12 11:56:58 · 360 阅读 · 0 评论 -
Flink典型ETL场景(好文点赞收藏!!)
目录1-关联维表1.1-预加载维表1.2-热存储维表1.3-广播维表2-双流join2.1-window join2.1.1-Tumbling Window Join2.1.2-Sliding Window Join2.1.3-Session Window Join2.2-Interval join1-关联维表1.1-预加载维表实现RichMapFunction,在open方法中读取数据库中的维度数据全量加载到内存中优点:简单缺点:适用于数据量小的维表1.2-热存储维表将维度数据存储待hbas原创 2021-09-23 13:50:09 · 696 阅读 · 0 评论 -
实时数仓当前主流架构(精简总结收藏!!)
目录1-实时数仓架构特点1.1-数仓分层明显少于离线数仓1.2-数据存储的多样化1.3-技术难度远高于离线数仓2-实时数仓应用场景3-实时数仓架构3.1-lamdba架构3.2-kappa架构3.3-架构对比1-实时数仓架构特点1.1-数仓分层明显少于离线数仓一般实时数仓主要是公共层的模型层,缩短数据处理时间,保证数据及时性。1.2-数据存储的多样化离线数仓的数据一般存储于hdfs,但是对于实时数仓的数据,一般使用kafka存储ods贴源层,dwd明细数据,dim维度数据更多的存储在HBase中,原创 2021-09-23 13:40:54 · 4081 阅读 · 1 评论 -
基于Flink构建全场景实时数仓
目录1-实时计算初期2-实时数仓建设3-Lambda架构的实时数仓4-Kappa架构的实时数仓5-流批结合的实时数仓1-实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有不少公司有实时计算的需求,但数据量不成规模,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据原创 2021-09-14 14:39:58 · 1628 阅读 · 1 评论 -
一文读懂大数据实时计算(好文点赞收藏!!)
目录0-前言1-实时计算2-实时计算应用场景2.1-实时智能推荐2.2-实时欺诈检测2.3-舆情分析2.4-复杂事件处理2.5-实时机器学习3-实时计算架构4-实时数仓解决方案0-前言本文分为四个章节介绍实时计算,第一节介绍实时计算出现的原因及概念;第二节介绍实时计算的应用场景;第三节介绍实时计算常见的架构;第四节是实时数仓解决方案。1-实时计算实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStream转载 2021-09-12 16:46:32 · 3187 阅读 · 0 评论