对离线数仓的整个数据流程架构整理

离线数仓数据流程架构解析

最新推荐文章于 2024-09-10 17:33:52 发布

原创

最新推荐文章于 2024-09-10 17:33:52 发布 · 633 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #kafka #hive #flink

该博客详细梳理了基于游戏数据分析业务的离线数仓架构，包括业务背景、技术选型（如CDH、Hadoop、Kafka、Hive、Flink等）、流程架构图，以及之前日志采集面临的问题，如存储格式、服务端和客户端架构，强调了日志服与游戏服的高耦合性。

对离线数仓的整个数据流程架构整理

业务背景

基于游戏的数据分析业务，对玩家的统计信息进行分渠道，分服务器的灵活即时查询。
并可以实时响应相关统计指标的明细查询，实现数据的钻取。

技术选型

整个大数据分析平台选用业内较为流行的CDH进行部署，相关组件的使用，根据业务需要，进行相应的添加。

预想时流程架构图

当前流程架构图

游戏技术架构

服务端采用SpringBoot+Mybatis+Netty+Mysql+Redis进行架构，Mysql采用主备复制
客户端采用U3D+Netty
通讯协议采用ProtoBuf

之前日志采集面临的问题

之前的存储格式

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

c_jhsp

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

离线数仓-数据治理

爱吃辣条的博客

02-03

1836

离线数仓-数据治理

数据仓库-离线数据仓库架构-002

Code365

07-09

2508

切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。对于sqoop和datax，如果只是单纯的数据同步，其实两者都是ok的，但是如果需要集成在大数据平台，还是比较推荐使用datax，原因就是支持流量控制，支持运行信息收集，及时跟踪数据同步情况。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。

参与评论您还未登录，请先登录后发表或查看评论

离线数仓整体流程(面试必备)

weixin_42908473的博客

01-28

2202

系统数据流通过程：电商数据来源分为两部分: (1)第一部分在网站做埋点，用户点击产生的日志数据，通过nginx,springboot将数据分发到日志服务器，logfile保存在日志服务器上。 (2)第二部分是网站的业务数据，一般保存在mysql数据库。数据传输日志数据通过flume收集，然后保存到kafka，再通过flume传输到hdfs。业务数据直接通过sqoop导入到hdfs。数据处理编写hql以及脚本程序，放在azkaban上作为每日定时任务，将最后结果导入到mysql数据库。数据展示.

离线数仓流程

qq_66563605的博客

07-21

770

离线数仓的整个过程

一百八十二、大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

tiantang2renjian的博客

09-22

2738

大数据离线数仓完整流程——步骤一、用Kettle从Kafka、MySQL等数据源采集数据然后写入HDFS

1.离线数仓—全流程调度实现

yunweijie_cn的博客

03-07

1101

全流程调度前言一、数据准备1.用户行为日志2.业务数据二、工作流调度实操1.DolphinScheduler集群模式1.1启动和登录DolphinScheduler1.2上传脚本1.3组件分发1.4配置环境变量并分发1.5 创建工作流2.DolphinScheduler单机模式2.1 启动DolphinScheduler2.2 安全中心配置前言前面学习了工作流调度工具DolphinScheduler，下面对数仓项目进行应用。一、数据准备 1.用户行为日志 1）启动日志采集通道，包括：Flume、Ka

数据仓库整体流程图（离线）

想练武，就得下功夫

10-22

2568

v1.0 v2.0

离线数仓（五）【数据仓库建模】

功不唐捐，玉汝于成

03-09

3176

离线数仓建模理论

大数据模型、离线架构、实时架构

swebin的专栏

03-18

2672

用户分析模型是基础的分析模型。运营人员可以通过观察不同属性的用户群体（如新注册用户与老客户、不同渠道来源的客户）各环节转化率，各流程步骤转化率的差异对比，了解转化率最高的用户群体，分析漏斗合理性，并针对转化率异常环节进行调整。黏性分析是在留存分析的基础上，对一些用户指标进行深化，除了一些常用的留存指标外，黏性分析能够从更多维度了解产品或者某功能黏住用户的能力情况，更全面地了解用户如何使用产品，新增什么样的功能可以提升用户留存下来的欲望，不同用户群体之间存在什么样的差异，不同用户对新增的功能有何看法。

电商实时数仓简易架构图

u012914566的专栏

06-08

499

一个人走的很快，一群人走的更远。扫描下面的QQ二维码加入Lark的数据中台开源社区，并为你提供全程免费服务，你也可以与其他伙伴交流大数据技术，如果觉得项目不错，可以star关注，LarkMidTable团队将十分感谢您的关注！ QQ群1群【678097205】已满微信公众号【LarkMidTable】 ...

离线数仓，实时数仓和准实时数仓的相关架构

wppwpp1的专栏

10-21

1338

1，离线数仓主要借助，hive去实现，相关的业务统计，实时也离不开离线 2，实时数仓模型，主要借助kafka，flink做些实时查询 3，准实时数仓，可能有分钟级的数据延迟，主要借助快速的olap数据库查询，比如 ClickHouse,Druid等实现。 ...

离线数仓——（用户活跃度，启动日志数据采集，事件日志数据采集）

qq_43408367的博客

01-14

780

给source增加自定义拦截器去掉本地时间戳 a1.sinks.k1.hdfs.useLocalTimeStamp = true根据header中的logtime写文件# 配置文件滚动方式（文件大小 32 M）

电商数据应用体系建设总结（三）—— 离线数据兜底方案

Viking的博客

05-14

957

背景目前我们使用Lambda架构来处理数据，Flink处理实时数据，Spark处理离线数据。Spark离线任务在每天凌晨的0-8点调度执行，在这段时间内，用户是看不到昨日未产出的离线数据的，数据应用对这些未产出的指标进行了特殊...

二百二十九、离线数仓——离线数仓Hive从Kafka、MySQL到ClickHouse的完整开发流程

2401_84167046的博客

04-18

926

这里的ADS层，其实就是用Kettle把Hive的DWS层结果数据同步到ClickHouse中，也是一个Kettle任务而已。(img-WFyHGrKX-1713371724542)]这样用海豚进行调度每一层的任务，整个离线数仓流程就跑起来了。

大数据Flink电商数仓实战项目流程全解（一）

日句灬的博客

07-21

8035

项目整体思路和架构本项目主要参考尚硅谷的Flink实时数仓项目完成，最近又重新跑了一遍，项目整体我会在后续上传到码云中，也会同步更新到博客中来，里面不仅包含了整体代码和整个集群搭建过程，也包含了一些我自己的理解和测试过程希望大家能喜欢，以后我也会把我整个的大数据学习过程和笔记做一个分享。非常欢迎一起学习大数据的朋友，大家可以一起交流和学习。实时数仓分层思想这里采用的架构和离线数仓架构不同，整个项目共分为6个层来做，但注意：这些层级之间并不是纯粹的上下关联关系：也不是一定非要有这6个层级；

重构实时离线一体化数仓，Apache Doris 在思必驰的应用实践

SelectDB

10-10

4459

Apache Doris 支持构建离线+实时统一数仓，一个 ETL 脚本即可支持实时和离线数仓，大大缩短开发周期，降低存储成本，避免了离线和实时指标不一致等问题。Apache Doris 1.1.x 版本开始全面支持向量化计算，较之前版本查询性能提升 2-3 倍。经测试，Apache Doris 1.1.x 版本在宽表场景的查询性能已基本与 ClickHouse 持平。功能强大，不依赖其他组件。

实时离线一体架构详解

goTsHgo的博客

09-10

2162

实时离线一体架构通过将实时和批处理统一到一个架构下，使得企业可以同时满足低延迟的实时分析需求和大规模历史数据分析需求，确保用户在统一的查询接口下能够访问到最新和最完整的数据。这种架构适合于对数据处理实时性要求高且有大规模数据存储需求的场景，未来随着大数据技术的进一步发展，实时离线一体架构将成为数据处理架构的重要方向。

详细离线数仓

qq_69964678的博客

05-09

327

粒度是数据的细化程度这个最好选择的是最小粒度，如过说dwd层中只每周或者是每月，那么当初出现统计每天的需求的话就没有办法了，所以我们应选择最小粒度。缺点，不是特别及时。例如商品维度表主要是将商品表SKU表、商品一级分类、商品二级分类、商品三级分类、商品品牌表和商品SPU表退化为商品表。--------------------------详细流程-----------------------------确认维度就是确认后期需要用到维度，我们这个项目的维度主要有时间维度，地区维度和用户维度，

大数据常用的Lambda架构---实时架构处理流程与离线架构处理流程

阿啄debugIT

05-25

3778

前言对低成本，规模化的需求，促使人们开始使用分布式文件系统，例如 HDFS和基于批量数据的计算系统（MapReduce 作业），但是这种系统很难做到低延迟。用 Storm 开发的实时流处理技术，可以帮助解决延迟性的问题，但并不完美。其中的一个原因是，Storm 不支持 exactly-once 语义，因此不能保证状态数据的正确性，另外它也不支持基于事件时间的处理。有以上需求的用户，不得不在自己的应用程序代码中加入这些功能。后来出现了一种混合分析的方法，它将上述两个方案结合起来，既保证低延迟，

离线数仓和实时数仓的区别