- 博客(5)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 数仓之模型开发实战
首先我们在数仓的ods层构建三张与业务库表结构一致的表分别为ods_sale、ods_commodity、ods_area,我们使用前文提到的datax从业务库将三张表的全量数据同步到数仓的ods库表,同时将商品和地区两张维度表的全量同步任务配置到azkaban定时,而对于销售流水表则基于销售时间进行增量同步。这就是一个简单的基于分析需求构建数仓多层表的整体流程,最后速度快的核心就在于我们通过预处理的方式把原始表进行聚合处理生成一个小数量级的统计表。那么在数仓中我们如何从原始库表生成这张聚合表呢。.....
2022-08-31 21:15:35
847
原创 数仓之异构数据源同步
它还支持执行一个在同步前和同步后的执行sql功能,这个功能可以让你在同步数据前清空目标库表,同步完成后向日志表中写入数据。第二个组件kettle,是数据ETL工具,这里介绍它是因为它也可以实现数据同步。kettle的数据同步性能较之datax有一定差距,数据来源也支持十几种,但是kettle的开源资料比较少,初始学习可能比较困难。canal组件产出的数据是一个实时流,我们可以将一个应用数据库的日志数据发送到kakfa中,下游各个消费者订阅数据将增量数据同步到各自的数据库中,官网提供的客户端有如下。.....
2022-08-16 20:34:49
1070
原创 数仓之数据集成
前两节我们简单讲述了数仓的作用、一个基本数仓的应用架构,这小节我们继续讲解下数仓的数据集成。数据集成指的是将企业内所有具有分析价值的数据同步到数据仓库中做集成管理,所以基础功能是数据同步。前面我们讲到数据同步可以是应用端自动上报到数仓的采集服务,例如ToC业务常见的前端js埋点发送数据到nginx,这是推的方式。还有通过jdbc直接拉取业务库表或者接口这是拉取的方式。埋点需要投入专门的开发工作量,而且埋点往往是需要更细粒度的获取用户操作信息,不是一般的数据同步方法。访问库表拉取数据则首先需要业务系统的时间字
2022-06-26 23:03:33
1248
原创 离线数仓应用架构
本小结介绍下离线数仓的一个应用架构一个简单的离线数仓架构图如下这里粗粒度的划分了异构数据源、数据传输、数据仓库、应用分析、及整体管理几层。其中源数据主要指的数仓的数据来源,有数据库数据、文件类型数据、还有接口等http传输的数据。数据库数据大多都是业务的数据,例如mysql、oracle等;文件类型大多是日志数据、离线csv等格式化数据;http传输主要为接口服务提供的数据、应用直接上报的数据等等。数据传输指的数据采集源端数据之后先放入传输层进行短期存储,再对传输层的统一格式数据进行统一的数据数据,例如脱敏
2022-06-26 15:27:06
1933
原创 数据仓库介绍
你好,我是七月,本专栏主要讲述我在职业生涯中应用的关于数仓相关的知识体系,初期主要以离线数仓为主。编写该专栏一共有两个目的,其一是梳理自己多年工作积累的知识,做到温故而知新;其二是分享数仓相关的基础知识给大家,抛砖引玉。随着IT行业的发展,数据分析、大数据、数仓、数据中台等概念不仅仅局限在互联网行业,传统中小型企业也需要支撑复杂的分析需求,得益于发展良好的开源项目,构建一个数仓不需要支付任何软件费用(当然商业软件更成熟、集成度高),只需要提供机器和专业人员即可构建。本专栏将为大家讲述一个基础的数仓如何搭建,
2022-06-20 21:05:53
624
flume限速拦截器,limitRate代表 kb/s
2025-04-07
redis windows安装包 3.0.503
2017-11-21
asp.net三层架构后台管理系统
2014-06-28
在asp.net WebForm中的easyUI分页+条件检索
2014-06-26
BinaryReader 打开文件时 进程冲突
2014-08-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人