
Hive
文章平均质量分 94
武子康
永远好奇,无限进步。
展开
-
大数据-240 离线数仓 - 广告业务 测试 ADS层数据加载 DataX数据导出到 MySQL
DataX 是由阿里巴巴开源的分布式离线数据同步工具,用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具,能够适应多种复杂的数据同步需求。,DataX 是由阿里巴巴开源的分布式离线数据同步工具,用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具,能够适应多种复杂的数据同步需求。原创 2024-12-03 10:31:23 · 4760 阅读 · 0 评论 -
大数据-239 离线数仓 - 广告业务 测试 FlumeAgent 加载ODS、DWD层
Flume 是一个分布式、可靠且可扩展的系统,用于收集、聚合和传输大量日志数据。它常用于从各种数据源(例如日志文件、应用程序、系统等)收集数据并将其传输到 Hadoop 生态系统(例如 HDFS、Hive、HBase 等)进行进一步处理。Flume 主要由多个组件构成,其中 Flume Agent 是核心的执行单元。Flume Agent 是 Flume 架构中的基本执行单元,负责处理数据流的接收、传输和存储。它可以独立运行或作为 Flume 集群的一部分来提供更高的可扩展性。原创 2024-12-02 09:03:34 · 6387 阅读 · 0 评论 -
大数据-235 离线数仓 - 会员活跃度 数据测试 完整加载 ODS DWD 层
ODS 是操作型数据存储层,主要用于存放从业务系统中抽取的原始数据。数据通常以 业务系统的原始格式 或经过少量标准化处理的形式存储。是数仓的“数据输入口”,负责承接来自业务系统的数据。DWD 是明细数据层,存储的是经过清洗和轻度处理的宽表数据。DWD 数据是细粒度的、面向分析的明细数据,数据通常已经具备一定的 业务逻辑处理 和 质量保证。原创 2024-11-27 09:41:05 · 6272 阅读 · 0 评论 -
大数据-233 离线数仓 - 留存会员 需求、创建与加载DWS 层、ADS 层 与 小结
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-25 09:49:05 · 6324 阅读 · 0 评论 -
大数据-232 离线数仓 - 新增会员 需求、创建与加载DWS 层、ADS 层 与 小结
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-23 10:12:06 · 5729 阅读 · 0 评论 -
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-22 08:23:07 · 6141 阅读 · 0 评论 -
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
UDF 是用户定义的函数,用于扩展大数据处理系统的功能。通过 UDF,用户可以实现特定的业务逻辑,用于数据的转换或计算。SerDe 是序列化与反序列化的缩写,用于定义数据的读写方式。在大数据框架中,数据通常以结构化或非结构化形式存储,SerDe 用于将这些数据转化为系统可以理解的格式,或从系统中导出成所需格式。原创 2024-11-21 09:27:53 · 5740 阅读 · 0 评论 -
大数据-229 离线数仓 - ODS层的构建 Hive处理 JSON 数据处理 结构化
ODS是一种面向操作层的数据存储,专注于支持企业的日常运营。它通常整合了来自不同数据源(如ERP、CRM、销售系统等)的数据,通过清洗、转换后存储,以便快速查询和使用。ODS不以历史数据分析为主要目的,而是以操作和事务处理为核心。原创 2024-11-20 09:25:11 · 8654 阅读 · 1 评论