Big Data
文章平均质量分 87
Debug_Snail
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
财务数据治理: 核心内容与实施路径
财务数据治理是企业数据治理战略在财务领域的具体实践,涵盖数据从产生到消亡的全生命周期管理, 确保财务数据的质量、安全、合规和高效利用。1.四大核心内容:质量、安全、标准、生命周期2.系统化实施框架:组织、政策、技术、文化3.结构化实施步骤:规划、执行、监控、优化4.遵循国家标准GB/T 44109-2024指导原创 2025-07-08 10:16:58 · 879 阅读 · 0 评论 -
如何构建高效数据中台体系
数据中台体系构建摘要 数据中台体系构建的核心在于主题设计、流程设计、业务指标、标准设计、模型设计和指标设计六大组件的协同配合。主题设计采用分层结构(主题域分组、主题域、业务对象)将数据按业务逻辑分类组织;流程设计刻画业务活动脉络;业务指标量化业务表现;标准设计保障数据质量;模型设计构建稳健架构;指标设计细化数据度量。这些组件相互关联,共同实现提升数据质量、增强一致性、赋能业务决策、促进资产价值化和保障稳定运行的目标。主题设计尤其关键,通过业务驱动的视角组织数据,为整个数据中台提供结构化基础。原创 2025-07-07 13:48:30 · 1043 阅读 · 0 评论 -
PyArrow 和 Parquet 的组合通过内存优化和高效存储,显著提升大数据处理的性能
**Apache Arrow 实现**:PyArrow 是 Arrow 的 Python 库,提供跨语言的内存数据结构,支持零拷贝数据共享,提升数据处理速度。- **高效计算**:内置计算函数(如过滤、聚合),可直接在 Arrow 内存数据上操作,避免转换为 Pandas 的开销。- **压缩与编码**:高效的压缩算法(如 Snappy、GZIP)和编码方式(如字典编码),降低存储成本。- **嵌套数据**:PyArrow 支持 Parquet 的嵌套结构,但需注意转换时的数据类型匹配。原创 2025-03-25 13:11:39 · 1082 阅读 · 0 评论 -
一文理清:阿里系数据中台-数据治理工具集(傻傻也能分清楚)
数仓全链路:DataWorks(开发) + MaxCompute(存储计算) + Dataphin(治理) + Quick BI(可视化)。实时分析:ADB为核心,结合DataWorks数据同步。开源需求:优先选择EMR,搭配DataWorks管理任务。根据具体场景选择组合,可参考阿里云官方文档或社区案例进一步优化方案。原创 2025-03-11 10:45:23 · 1606 阅读 · 0 评论 -
一文理清概念:数据中台(DMP)-数据仓库(DW)-数据湖(DL)-湖仓一体-数据治理(DG)
一种面向主题的、集成的、稳定的数据存储系统,用于支持企业决策分析(如BI、报表)。数据通常经过ETL(抽取、转换、加载)处理,以结构化形式存储,采用。原创 2025-03-10 22:02:12 · 1596 阅读 · 0 评论 -
Apache atlas 元数据管理系统编译过程
编译准备:1.安装jdk-1.8 配置环境变量2.安装maven 3.0 下载到 /opt/maven/apache-maven-3.5.4-bin.tar.gz 解压maven:cd /opt/maven && tar -zxvf apache-maven-3.5.4-bin.tar.gz 新建软链:ln -s /opt/maven/apa...原创 2018-12-14 19:07:07 · 2398 阅读 · 7 评论
分享