
大数据
文章平均质量分 92
武子康
Hi, I'm Zikang / 武子康
好奇心驱动的探索者 | INTJ / INFJ
我热爱探索一切值得深究的事物。对技术、成长、效率、认知、人生有着持续的好奇心和行动力。
坚信「飞轮效应」,相信每一次微小的积累,终将带来深远的改变。
展开
-
大语言模型 04:模型量化详解 KTransformers MoE推理优化技术
DeepSeek-V2是一种采用专家混合模型(Mixture-of-Experts, MoE)的新型大语言模型。在V2版本中,该模型共拥有2360亿个参数,但每个token仅激活210亿个参数,大幅减少了推理计算量。传统的Transformer模型通常采用分组查询注意力机制(Grouped-Query Attention, GQA),而DeepSeek-V2则引入了多头潜在注意力机制(Multi-head Latent Attention, MLA),从而有效降低推理阶段的KV缓存大小,提升推理性能。原创 2025-04-27 10:42:37 · 656 阅读 · 0 评论 -
大数据-271 Spark MLib - 基础介绍 机器学习算法 线性回归 场景 定义 损失 优化
线性回归(Linear Regression)是利用回归方程(函数)对一个或多个自变量和因变量之间关系进行建模的一种分析方式特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况的叫做多元回归如下图的例子:上面两个例子,我们看到特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型。原创 2025-04-11 12:25:38 · 994 阅读 · 0 评论 -
大数据-269 实时数仓 - DIM DW ADS 层处理 Scala实现将数据写出HBase等
DW(Data WareHouse 数据仓库层),包含 DWD、DWS、DIM 层数据加工而成,主要完成数据架构与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。基于 DW 数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。在分析交易过程时,可以通过卖家、买家、商品和时间等维度描述交易发生的环境,所以维度的作用一般是查询约束、分类汇总以及排序等。转换 area 表 到 地区ID、地区的名字、城市ID、城市的名字、省份 ID、省份的名字 到 HBase 中。原创 2025-01-03 10:42:57 · 11259 阅读 · 0 评论 -
大数据-268 实时数仓 - ODS层 将 Kafka 中的维度表写入 DIM
在 Kafka 中写入维度表(DIM)通常涉及将实时或批处理数据从 Kafka 主题(Topic)读取,并根据数据流中的信息更新维度表(DIM),这在数据仓库或数据湖的 ETL(提取、转换、加载)过程中非常常见。维度表(DIM)存储的是与业务数据相关的维度信息,例如客户、产品、地理位置等,用于支持 OLAP(联机分析处理)查询。原创 2025-01-03 10:36:34 · 10566 阅读 · 0 评论 -
大数据-267 实时数仓 - ODS Lambda架构 Kappa架构 核心思想
在互联网企业中,常见的 ODS 数据有业务日志数据(Log)和业务 DB 数据两类,对于业务 DB 数据来说,从 MySQL 等关系型数据库的业务数据进行采集,然后导入到 Hive 中,是进行数据仓库生产的重要环节。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析。为了彻底解决这些问题,我们逐步实时 binlog 采集进行实时处理,binlog 是 MySQL的二进制日志,记录了 MySQL 中发生的所有数据的变化,MySQL 集群自身的主从同步就是基于 binlog 做的。原创 2025-01-02 17:20:15 · 8438 阅读 · 0 评论 -
大数据-266 实时数仓 - Canal 对接 Kafka 客户端测试
Canal 是阿里巴巴开源的 MySQL binlog 增量订阅与消费平台。它模拟 MySQL 的主从复制机制,通过解析 MySQL 的二进制日志(binlog),实现数据库变更的数据捕获(CDC, Change Data Capture)。数据同步:支持将数据库的变更数据同步到其他数据源或消息系统,如 Kafka、RocketMQ、Elasticsearch 等。实时性:基于 binlog 的解析和订阅,能够实现毫秒级的数据变更捕获。分布式架构:支持集群部署,满足高可用性和高吞吐量需求。原创 2025-01-02 17:14:12 · 6880 阅读 · 0 评论 -
大数据-265 实时数仓 - Canal 部署安装 启动服务 常见问题解决
Canal 是阿里巴巴开源的数据同步工具,用于 MySQL 数据库的增量日志解析和同步。它模拟 MySQL 从库协议,获取主库的 binlog 日志,从而实现实时数据捕获和传输,常用于数据迁移、缓存更新和搜索引擎同步等场景。Canal 集群模式通常结合 ZooKeeper 实现分布式协调,保证高可用性和负载均衡。独立实例模式:多个 Canal 实例独立运行,适合小规模场景。HA 模式:基于 ZooKeeper 实现主备切换,提高可靠性。原创 2024-12-31 09:09:21 · 6358 阅读 · 0 评论 -
大数据-264 实时数仓 - Canal MySQL的binlog研究 存储目录 变动信息 配置MySQL
MySQL 的二进制日志(Binary Log,简称 binlog)是 MySQL 数据库中的一种日志文件类型,它记录了对数据库执行的所有更改操作(不包括 SELECT 和 SHOW 等查询操作)。它主要用于数据恢复、复制和审计等场景。原创 2024-12-30 12:33:22 · 6203 阅读 · 0 评论 -
大数据-263 实时数仓 - Canal 工作原理 工作流程 MySQL Binglog基本介绍
Canal 是一款用于 MySQL 数据库 binlog 增量订阅和消费的开源工具。它主要用于解决数据同步和分布式事务问题,支持将数据库变更同步到其他系统中,比如消息队列、大数据平台等。Master 主库将改变记录写进二进制 binary log 中Slave 从库向 MySQL Master 发送 DUMP 协议,将 Master 主库的 binary log events 拷贝到它的中继日志(relay log)。Slave 从库读取并重做中继日志中的事件,将改变的数据同步到自己的数据库。原创 2024-12-30 08:52:57 · 5974 阅读 · 0 评论 -
大数据-262 实时数仓 - Canal 同步数据 介绍背景原理与优势 拉链表 实时统计
阿里巴巴 B2B 公司,由于业务的特性,卖家主要集中在国内,买家主要集中在国外,所以衍生出了杭州和美国异地机房的需求,从 2010 年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅、消费的业务。Canal是用 Java 开发的基于数据库增量日志解析,提供增量数据订阅、消费的中间件。目前,Canal主要支持了 MySQL 的 Binlog 解析,解析完成后才利用 Canal Client 用来处理获得相关数据。原创 2024-12-29 09:03:35 · 7097 阅读 · 0 评论 -
大数据-261 实时数仓 - 业务数据库表结构 交易订单、订单产品、产品分类、商家店铺、地域组织表
实时数仓是一种数据仓库系统,区别于传统批处理数仓,它强调低延迟、高吞吐和高可用性。实时数仓能够处理流式数据或近实时的数据流,使企业能够及时监控关键指标并做出决策。实时数仓是现代企业实现实时决策和分析的重要工具,它通过低延迟、高并发的特点满足企业对时效性数据的需求。尽管实时数仓的搭建与维护具有一定的复杂性,但其在业务分析、风控管理和用户行为分析等方面具有显著优势。随着技术的发展,实时数仓将会更加智能化、云原生化,为企业带来更高的竞争力。原创 2024-12-28 11:45:27 · 6501 阅读 · 0 评论 -
大数据-260 实时数仓 - 项目背景与需求 实时数仓架构 需求分析 技术选型 逻辑架构
数据实时处理能力成为企业提升竞争力的一大因素,最初阶段主要采用来一个需求,编写一个实时任务的方式来处理实时数据,随着需求的增多,计算任务也相对增多,并且不同任务的开发人员不同,导致开发风格差异化,该阶段的实时数据处理缺乏统一的规划,代码风格差异化严重,在维护成本和开发效率上有很大障碍。CDH:最成型的发型版本,拥有最多的部署案例,提供强大的部署、管理和监控工具,国内使用最多的版本,拥有强大的社区支持,当遇到问题时,能够通过社区、论坛等网络资源快速获取解决方法。数据、任务和资源三个角度去管理 集群资源。原创 2024-12-27 10:27:03 · 6803 阅读 · 0 评论 -
大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动
用户可以自定义规则,使用 JSON 或其他标准格式来描述数据质量的各项要求。这些规则能够对数据进行周期性检查,并在发现问题时发出警报或进行自动修复。Apache Griffin 是一个开源的数据质量管理框架,旨在帮助组织在大数据环境中监控和提高数据质量。它提供了一套用于定义、度量和报告数据质量标准的工具,支持批处理和流处理数据。Apache Griffin 的核心功能包括数据质量的检测、评估、监控和报告,适用于大数据处理平台,如 Hadoop、Spark、Flink 等。原创 2024-12-25 09:02:18 · 7399 阅读 · 1 评论 -
大数据-258 离线数仓 - Griffin架构 配置安装 Livy 架构设计 解压配置 Hadoop Hive
Livy 是一个用于 Apache Spark 的 REST 接口,旨在简化 Spark 作业的提交和管理,特别是在大数据处理场景中。它的主要功能是通过 REST API 与 Spark 集群进行交互,允许用户提交作业、执行代码片段并查询作业的状态和结果,而不需要直接与 Spark 的底层架构交互。简化 Spark 作业提交:用户可以通过 HTTP 请求向 Livy 发送 Spark 作业,而不需要直接使用 spark-submit命令。原创 2024-12-24 09:36:33 · 7052 阅读 · 0 评论 -
大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构
Apache Griffin是一个开源的大数据质量解决方案,它支持批处理和流处理两种模式的数据质量检测方式。可以从不同的维度(如离线任务执行完毕后检查源端和目标端的数据质量是否一致,源表数据值空值等)度量数据资产,从而提升数据的准确度、可信度。数据质量监控通常结合自动化工具和人工审查,利用数据质量管理平台进行实时监控,生成报告并触发警报,以便及时纠正问题。这些工具和方法帮助企业确保其数据可以用于可靠的分析和决策。原创 2024-12-23 10:31:49 · 6130 阅读 · 0 评论 -
大数据-256 离线数仓 - Atlas 数据仓库元数据管理 正式安装 启动服务访问 Hive血缘关系导入
元数据(MetaData)狭义的解释是用来描述数据的数据。广义来看,除了业务逻辑直接读写处理的那些业务数据,所有其他用来维持整个系统运转所需的信息、数据都可以叫做元数据,如数据库中表的Schema信息,任务的血缘关系,用户和脚本、任务的权限映射关系信息等。管理元数据的目的,是为了让用户能够更高效的使用数据,也是为了平台管理人员能更加有效的做好数据的维护管理工作。但通常这些元数据信息是散落在平台的各个系统,各种流程中,它们的管理也可能或多或少可以通过各种子系统自身的工具,方案或者流程逻辑来实现。原创 2024-12-21 08:57:20 · 5991 阅读 · 0 评论 -
大数据-255 离线数仓 - Atlas 数据仓库元数据管理 数据血缘关系 元数据
Atlas是Hadoop平台元数据框架:Atlas是一组可扩展的核心基础治理服务,使企业能够有效,高效的满足Hadoop中合规性要求,并能与整个企业数据生态系统集成Apache Atlas为组织提供了开放的元数据管理和治理功能,以建立数据资产的目录,对这些资产进行分类和治理,并为IT团队、数据分析团队提供围绕这些数据资产的协作功能。Apache Atlas 是一个开源的数据治理和元数据管理框架,最初由 Hortonworks 开发,后来成为 Apache 基金会的项目。原创 2024-12-20 09:35:50 · 5565 阅读 · 0 评论 -
大数据-254 离线数仓 - Airflow 任务调度 核心交易调度任务集成
Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。原创 2024-12-19 09:41:10 · 5186 阅读 · 0 评论 -
大数据-253 离线数仓 - Airflow 任务调度 核心概念与实际案例测试 Py脚本编写
Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。原创 2024-12-18 09:20:01 · 5203 阅读 · 0 评论 -
大数据-252 离线数仓 - Airflow 任务调度 Crontab简介 任务集成部署 入门案例
Linux系统是由cron(crond)系统服务来控制的,Linux系统上原本那就有非常多的计划性工作,因此这个系统服务是默认启动的。Linux系统也提供了Linux用户控制计划任务的命令:crontab命令日志文件:ll /var/log/cron*编辑文件: vim /etc/crontab进程: ps -ef | grep crond => /etc/init.d/crond restart作用:任务(命令)定时调度 定时备份等。原创 2024-12-17 11:15:31 · 5486 阅读 · 0 评论 -
大数据-251 离线数仓 - Airflow 任务调度系统 安装部署测试
Apache Airflow 是一个开源的任务调度和工作流管理工具,用于编排复杂的数据处理任务。最初由 Airbnb 开发,于 2016 年捐赠给 Apache 软件基金会。Airflow 的主要特点是以代码方式定义任务及其依赖关系,支持任务的调度和监控,适合处理复杂的大数据任务。原创 2024-12-16 15:58:18 · 5094 阅读 · 0 评论 -
大数据-250 离线数仓 - 电商分析 ADS层 与 Airflow 任务调度系统基本介绍
Apache Airflow 是一个开源的任务调度和工作流管理平台,主要用于开发、调试和监控数据管道。Airflow 通过使用 Python 脚本定义任务和依赖关系,帮助用户以编程的方式构建动态的、可视化的工作流。工作流以 Python 脚本定义,称为 DAG(Directed Acyclic Graph,有向无环图)。每个 DAG 包括一组任务及其依赖关系。支持灵活的任务调度,用户可以通过时间间隔、特定时间点等方式定义任务的运行周期。调度器自动根据依赖关系按顺序触发任务执行。原创 2024-12-14 08:58:09 · 6097 阅读 · 0 评论 -
大数据-249 离线数仓 - 电商分析 DWD层建表与脚本 DWS层建表与脚本
订单表是周期性事实表,为保留订单状态,可以使用拉链表进行处理订单产品表普通的事实表,用常规的方法进行处理(如果有数据清洗、数据转换的需求 ODS=>DWD。如果没有数据清洗、数据转换的需求,保留在ODS,不做任何变化)-3 用户拒收-2 未付款订单-1 用户取消0 等待发货1 配送中2 用户确认收货订单从创建到最终完成,是有时间限制的,业务上也不允许订单一个月之后,订单状态仍然在发生变化。原创 2024-12-13 10:41:37 · 5386 阅读 · 0 评论 -
大数据-248 离线数仓 - 电商分析 商品分类表、地域组织表、商品信息表 维表
首先要确定哪些是事实表、维表。绿色为事实表灰色为维表用什么方式处理维表,每日快照、拉链表?小表使用每日快照表:产品分类表、商家店铺表、商家地域组织表、支付方式表大表使用拉链表:产品信息表。数据库中的数据是规范的(满足三范式),但是规范化的数据给查询带来不便。数据库范式是设计关系型数据库结构时的一套指导原则,目的是为了减少数据冗余、确保数据依赖性合理,并提高数据一致性。然而,遵循范式也有一些潜在的缺点:- 性能问题:高度规范化的数据库可能会导致查询和连接操作变慢,因为需要在多个表之间进行复杂的连接来获取完原创 2024-12-12 09:30:45 · 5835 阅读 · 0 评论 -
大数据-247 离线数仓 - 电商分析 周期性事实表与拉链表的实现
周期性事实表(Periodic Fact Table)是一种用于数据仓库中的事实表,专门设计用来存储与时间周期相关的事实数据。它是一种事实表模型,通常用于支持时间序列分析,帮助用户理解随时间变化的业务度量。周期性事实表是数据仓库的重要组成部分,适合用于分析随时间变化的聚合数据,并为业务决策提供依据。其设计和实现需要结合具体的业务需求和性能要求。周期性事实表记录的是定期发生的业务事件或度量数据,例如每天、每月或每季度的数据。其设计目的在于帮助用户快速查询和分析这些周期性数据的趋势和变化。原创 2024-12-11 10:16:53 · 5131 阅读 · 0 评论 -
大数据-246 离线数仓 - 电商分析 拉链表的分析与构建与回滚
工作原理新增数据:当有新数据插入时,系统创建一条新记录,设置其开始时间为当前时间,结束时间为一个默认的最大时间(如9999-12-31),同时将is_current字段设为1。更新数据:首先将现有的有效记录的结束时间更新为当前时间,表示它的有效期结束,同时将is_current标志设为0。然后插入一条新的记录,表示更新后的版本,开始时间为当前时间,结束时间为默认最大时间,is_current标志为1。删除数据:一般通过逻辑删除方式(更新结束时间和is_current字段)实现,而不是直接物理删除。原创 2024-12-10 09:26:20 · 5194 阅读 · 0 评论 -
大数据-245 离线数仓 - 电商分析 缓慢变化维 与 拉链表 SCD Slowly Changing Dimensions
缓慢变化维(slowly varying dimension)是数据仓库领域中维度数据的一种特性,用于描述随着时间推移,某些属性会发生变化的维度。然而,这些变化通常是相对缓慢和不频繁的,因此称之为“缓慢变化维”(SCD, Slowly Changing Dimensions)。处理缓慢变化维是数据仓库设计中的一个重要部分,因为它直接影响数据的历史记录保存和版本控制。缓慢变化维主要用于记录维度的属性随时间变化的情况,例如客户的地址、雇员的职位或产品的价格等。在实际应用中,为了满足业务需求,通常会根据变化记原创 2024-12-09 14:46:55 · 4977 阅读 · 0 评论 -
大数据-244 离线数仓 - 电商核心交易 ODS层 数据库结构 数据加载 DataX
在大数据体系中,ODS(Operational Data Store),即操作数据存储,是数据仓库中的重要组成部分,起着承上启下的作用。ODS主要是用于存储原始的、经过轻度处理的数据,通常直接从业务系统(如ERP、CRM等)中抽取而来。ODS是大数据架构中的数据层之一,它是指在数据从业务系统到数据仓库的过程中,用于临时存放和管理数据的区域。ODS一般用来存储接近实时的、较为原始的操作型数据,为上层的数据清洗、加工、分析提供基础。原创 2024-12-07 09:06:27 · 5095 阅读 · 0 评论 -
大数据-243 离线数仓 - 电商核心交易 增量数据导入 订单、订单明细、产品明细表
业务需求,电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。选取的指标包括:订单数、商品数、支付金额,对这些指标按销售区域、商品类型分析。在大数据的分析中,"电商核心交易"是指电商平台上所有与商品交易相关的核心行为和交易数据的集合。具体来说,核心交易涵盖了商品的浏览、加购物车、下单、支付、发货、收货等一系列行为,它们直接影响电商平台的运营效率、用户体验和商业价值。## 需求板块电商平台的核心交易可以分为以下几个主要环节,每个环节都涉及大量数据的收集、存储和分析原创 2024-12-06 09:19:41 · 3782 阅读 · 0 评论 -
大数据-242 离线数仓 - 电商核心交易 数据导入 全量数据导入方案 产品分类、商家店铺、地域组织
业务需求,电商系统业务中最关键的业务,电商的运营活动都是围绕这个主题展开。选取的指标包括:订单数、商品数、支付金额,对这些指标按销售区域、商品类型分析。在大数据的分析中,"电商核心交易"是指电商平台上所有与商品交易相关的核心行为和交易数据的集合。具体来说,核心交易涵盖了商品的浏览、加购物车、下单、支付、发货、收货等一系列行为,它们直接影响电商平台的运营效率、用户体验和商业价值。## 需求板块电商平台的核心交易可以分为以下几个主要环节,每个环节都涉及大量数据的收集、存储和分析原创 2024-12-05 09:24:58 · 5969 阅读 · 0 评论 -
大数据-240 离线数仓 - 广告业务 测试 ADS层数据加载 DataX数据导出到 MySQL
DataX 是由阿里巴巴开源的分布式离线数据同步工具,用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具,能够适应多种复杂的数据同步需求。,DataX 是由阿里巴巴开源的分布式离线数据同步工具,用于解决不同存储系统之间的数据传输问题。它被设计为一种高效、稳定、易扩展的工具,能够适应多种复杂的数据同步需求。原创 2024-12-03 10:31:23 · 4781 阅读 · 0 评论 -
大数据-239 离线数仓 - 广告业务 测试 FlumeAgent 加载ODS、DWD层
Flume 是一个分布式、可靠且可扩展的系统,用于收集、聚合和传输大量日志数据。它常用于从各种数据源(例如日志文件、应用程序、系统等)收集数据并将其传输到 Hadoop 生态系统(例如 HDFS、Hive、HBase 等)进行进一步处理。Flume 主要由多个组件构成,其中 Flume Agent 是核心的执行单元。Flume Agent 是 Flume 架构中的基本执行单元,负责处理数据流的接收、传输和存储。它可以独立运行或作为 Flume 集群的一部分来提供更高的可扩展性。原创 2024-12-02 09:03:34 · 6409 阅读 · 0 评论 -
大数据-238 离线数仓 - 广告业务 点击次数 ADS层、广告效果分析 ADS 层 需求分析与加载
漏斗分析(Funnel Analysis)是一种常用于大数据分析的技术,广泛应用于产品、用户行为分析、营销效果评估等领域。漏斗分析的核心概念是通过定义一系列的步骤或阶段,跟踪用户或客户在每个阶段的流失情况,从而帮助分析问题所在并优化转化率。原创 2024-11-30 09:32:22 · 6504 阅读 · 0 评论 -
大数据-237 离线数仓 - 广告业务 需求分析 ODS DWD UDF JSON 串解析
UDF 是用户根据具体需求编写的自定义函数,用于处理 SQL 语言无法直接完成的复杂逻辑。数据仓库系统(如 Hive、Spark SQL、ClickHouse 等)内置了一些通用的函数,但当内置函数无法满足需求时,可以通过 UDF 实现自定义扩展。UDF 的作用,实现复杂逻辑,通过 UDF,可以将复杂的业务逻辑封装成函数,以简化 SQL 代码。例如,根据自定义规则处理字符串、日期计算等。提高代码复用性,将重复使用的逻辑封装成 UDF,便于在多个查询中调用,减少代码冗余。扩展 SQL 的功能内置。原创 2024-11-29 09:33:27 · 7018 阅读 · 1 评论 -
大数据-236 离线数仓 - 会员活跃度 WDS 与 ADS 导出到 MySQL 与 广告业务 需求分析
互联网平台通行的商业模式是利用免费的基础服务来吸引大量用户,并利用这些用户开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。广告收入不仅成为互联网平台的重要收入之一,更决定了互联网平台的发展程度。电商平台本身就汇聚了海量的商品、店铺的信息,天然适合进行商品的推广。对于电商和广告主来说,广告投放的目的无非就是吸引更多的用户,最终实现营销转换。因此非常关注不同位置的广告的曝光量、点击量、购买量、点击率、购买率。原创 2024-11-28 09:39:38 · 6071 阅读 · 0 评论 -
大数据-235 离线数仓 - 会员活跃度 数据测试 完整加载 ODS DWD 层
ODS 是操作型数据存储层,主要用于存放从业务系统中抽取的原始数据。数据通常以 业务系统的原始格式 或经过少量标准化处理的形式存储。是数仓的“数据输入口”,负责承接来自业务系统的数据。DWD 是明细数据层,存储的是经过清洗和轻度处理的宽表数据。DWD 数据是细粒度的、面向分析的明细数据,数据通常已经具备一定的 业务逻辑处理 和 质量保证。原创 2024-11-27 09:41:05 · 6309 阅读 · 0 评论 -
大数据-234 离线数仓 - 异构数据源 DataX 将数据 从 HDFS 到 MySQL
DataX 是阿里巴巴开源的一款分布式数据同步工具,用于实现各种异构数据源之间高效、稳定的数据同步。其主要功能包括数据的批量导入、导出和实时传输,支持多种主流数据源,例如关系型数据库、NoSQL 数据库、大数据存储系统等。DataX 的核心思想是“插件化架构”,通过灵活的 Reader 和 Writer 插件实现不同数据源之间的数据交换。原创 2024-11-26 09:55:50 · 7168 阅读 · 1 评论 -
大数据-233 离线数仓 - 留存会员 需求、创建与加载DWS 层、ADS 层 与 小结
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-25 09:49:05 · 6353 阅读 · 0 评论 -
大数据-232 离线数仓 - 新增会员 需求、创建与加载DWS 层、ADS 层 与 小结
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-23 10:12:06 · 5753 阅读 · 0 评论 -
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
DWS 层通常被称为数据仓库服务层或明细层,它是数据仓库架构中的中间层,负责将原始数据经过清洗、转换后进行存储,并提供给下游的数据应用层或分析层使用。ADS 层是面向应用的数据服务层,主要聚焦于业务的直接需求和决策支持,提供高性能和高响应的数据查询能力,通常是直接为应用或决策系统提供服务。DWS 层是数据仓库的核心层,面向数据的分析与存储,提供底层的支持。ADS 层是面向业务的服务层,提供直接可用的高性能数据查询服务。在实际项目中,这两层往往结合使用:DWS 为 ADS 提供数据基础,而 ADS 则聚焦原创 2024-11-22 08:23:07 · 6188 阅读 · 0 评论