
2-金融零售离线数仓
文章平均质量分 66
大数据业务
TTXS123456789ABC
基础要扎实!方案设计,baseline落地,发现问题,解决问题,方案优化(利他+敬畏生产)。
展开
-
数仓维度建模
数仓维度建模原创 2024-04-12 11:54:40 · 1411 阅读 · 0 评论 -
数仓各层作用
ods同步原始数据,保证数据的完整性。原创 2024-07-02 09:17:35 · 285 阅读 · 0 评论 -
数仓专有名词
比如说订单id,这种量级很大的维度,没必要用一张维度表来进行存储,而我们进行数据查询或者数据过滤的时候又非常需要,所以这种就冗余在事实表里面,这种就叫退化维度,citycode这种我们也会冗余在事实表里面,但是它有对应的维度表,所以它不是退化维度。数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。从年的维度可以下钻到月的维度、日的维度等。如将超过200斤的称为大胖子。原创 2024-04-11 20:24:16 · 595 阅读 · 0 评论 -
数仓_数据口径
在数据仓库(数仓)中,数据口径是指在数据统计和分析过程中,对数据的定义、计算方法、范围和标准等方面的详细规定。它确保了数据的一致性和准确性,避免因统计标准不一致导致的数据误解和混淆。通过数据分层,提供统一的数据出口,确保对外输出的数据口径一致,避免同一指标不同口径的情况发生。数据范围:确定数据的地域范围和业务范围。时间范围:明确数据的统计周期和时间窗口。例如,统计周期为每天,时间窗口为当天的00:00到23:59。例如,“用户注册数”指的是在某一定时间内通过平台注册的新用户数量。原创 2025-02-16 09:46:59 · 157 阅读 · 0 评论 -
数仓指标体系
数仓指标体系原创 2024-04-11 20:15:27 · 524 阅读 · 0 评论 -
数仓技术选型
数据量大小,业务需求,行业内经验,技术成熟度,开发维护成本,学习成本,总成本预算。集群监控:Zabbix,Prometheus。权限管理:Ranger,Sentry。元数据管理:Atlas。原创 2024-05-04 14:36:36 · 505 阅读 · 3 评论 -
DBMS: MySQL (no ver.) Case sensitivity: plain=mixed, delimited=exact [08S01] Communications link fa
原创 2024-04-19 15:13:46 · 1399 阅读 · 0 评论 -
ERROR flume.SinkRunner: Unable to deliver event. Exception follows. org.apache.flume.EventDeliveryEx
flume 增量同步报错。原创 2024-02-02 14:43:20 · 736 阅读 · 0 评论 -
dwd_traffic_page_view_inc装载数据很慢
1.加载数据的小文件太多,saprk 加载这些小文件时,需要消耗资源。dwd_traffic_page_view_inc 装载数据很慢。原创 2024-04-10 22:41:27 · 178 阅读 · 0 评论 -
离线数仓调度工具DolphinScheduler_国产
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。也采用分布式无中心设计理念,采用分布式无中心设计理念,原创 2024-04-21 14:36:13 · 234 阅读 · 0 评论 -
离线数仓数据导出-hive数据同步到mysql
为方便报表应用使用数据,需将ads各指标的统计结果导出到MySQL数据库中。datax支持hive同步MySQL:仅仅支持hive存储的hdfs文件导出。所以reader选hdfs-reader,writer选mysql-writer。null值 在hive和mysql里的存储格式不一样,需要告诉DataX应该如何转换。原创 2024-04-19 16:58:19 · 1136 阅读 · 2 评论 -
离线数仓ADS层
离线数仓ADS层一级目录二级目录三级目录一级目录二级目录三级目录原创 2024-09-15 20:55:44 · 578 阅读 · 0 评论 -
离线数仓DWS层
DWS 层为公共汇总层,会进行轻度汇总,粒度比明细数据稍粗,基于 DWD 层上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。又称数据集市或宽表。在原始明细模型中会存在多个描述事实的维度,如日期、商品类别、卖家等,这时候需要确定根据什么维度聚集,如果只关心商品的交易额情况,那么就可以根据商品维度聚集数据。按照业务划分,如主题域流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP 分析,数据分发等。聚集并不需要保持与原始明细粒度数据一样的粒度,聚集只关心所需要查询的维度。原创 2024-04-11 21:39:48 · 855 阅读 · 0 评论 -
离线数仓DWD层
离线数仓DWD层一级目录二级目录三级目录一级目录二级目录三级目录原创 2024-09-15 21:02:18 · 352 阅读 · 0 评论 -
离线数仓DIM层
离线数仓DIM层一级目录二级目录三级目录一级目录二级目录三级目录原创 2024-09-15 20:56:22 · 620 阅读 · 0 评论 -
离线数仓ODS层
(1)在hadoop102的/home/atguigu/bin目录下创建hdfs_to_ods_log.sh。(1)在hadoop102的/home/atguigu/bin目录下创建hdfs_to_ods_db.sh。(3)增加脚本执行权限。(3)增加脚本执行权限。原创 2024-09-15 21:33:17 · 1083 阅读 · 0 评论 -
离线数仓ODS层准备
要在hadoop102里面load,如果在datagrip里面load它的导入是在本地(windows)里面导入的。嵌套数据类型:array < struct< id:int ,name:string> >在datagrip里面链接hadoop102的hive,查看导入的数据。1.定义: struct< id:int ,name:string>struct结构体:多个字段,每个字段都有他的字段名和字段类型。创建的日志表,要兼容 页面日志和启动日志。map : 结构中 所有的数据类型都要是一样的。原创 2024-09-15 20:56:54 · 789 阅读 · 0 评论 -
数仓开发环境链接
数仓开发工具datagrip 需要用到JDBC协议链接到Hive,需要启动hiveserver2。property.hive.log.file 指定了日志的位置。创建数据库gmall,并观察是否创建成功。实时监控,再把报错的操作再做一遍。所有用到的环境日志,逐一排查。对新建数据库,进行增删改查。原创 2024-02-29 22:42:37 · 586 阅读 · 0 评论