oo寻梦in记
这个作者很懒,什么都没留下…
展开
-
【数据仓库】-- 原子和派生指标
转化率通过衡量完成目标的用户与所有访问用户的比例,帮助分析营销或用户体验的效果。客户留存率衡量了你保持现有客户的能力,帮助你了解客户忠诚度和产品或服务的持续吸引力。这些派生指标都基于原子指标的计算和组合,通过深入分析,能够提供更有价值的洞察,帮助优化营销策略、客户关系管理和整体业务运营。原创 2025-03-12 14:15:45 · 72 阅读 · 0 评论 -
【数据湖仓】-- 阿里云 dataworks 和 AWS Glue 数据治理工具对比
阿里云 DataWorks 和 AWS Glue 都是云平台提供的数据集成、数据处理和数据管道管理服务,旨在帮助用户构建和管理数据工作流和 ETL(提取、转换、加载)操作。虽然它们提供了相似的核心功能,但由于两者分别属于阿里云和 AWS,各自的特点和优势有所不同。以下是它们在多个维度的对比,包括功能、易用性、成本等方面。原创 2024-11-26 10:39:30 · 558 阅读 · 0 评论 -
【数据湖仓】-- 阿里云 EMR 和 AWS EMR 工具对比
阿里云 EMR(Elastic MapReduce)和 AWS EMR(Amazon Elastic MapReduce)都是云平台提供的分布式数据处理服务,主要用于处理大规模数据集,并支持 Hadoop、Spark、Hive 等大数据处理框架。尽管它们有类似的功能,但在细节上有很多差异,包括性能、可用性、价格、集成生态等。以下是两者的对比,包括优缺点和成本分析。原创 2024-11-26 10:30:16 · 491 阅读 · 0 评论 -
【Apache Paimon】-- 1 -- Apache Paimon 是什么?
我们听说过数据仓库、数据湖、数据湖仓,那你听说过流式数据仓库(Stream warehouse,简称:Streamhouse)吗?那我们今天就来解锁看看他们之中的新秀: Apache paimon 到底是什么。德国柏林理工大学的学生于2008年创建了 Flink 的前身,2014年 Flink 1.0 版本发布,到 2019年于阿里 blink 合并,并于2020年收购了 Flink 的母公司 Data Artisans,并创建了 Ververica(商业公司)。原创 2024-11-14 18:12:36 · 710 阅读 · 0 评论 -
【大数据】-- maxcompute/odps 存储优化之小文件合并
分布式文件系统按块(Block)存放数据,文件大小比块大小(64MB)小的文件称为小文件。分布式系统不可避免会产生小文件,比如SQL或其他分布式引擎的计算结果、Tunnel数据采集。合并小文件可以达到优化系统性能的目的。本文为您介绍如何在MaxCompute中合并小文件。原创 2024-02-28 10:23:20 · 541 阅读 · 0 评论 -
【大数据】-- odps/maxcompute 表操作
对分区表的分区进行合并,即同一个分区表下的多个分区合并成一个分区,同时删除被合并的分区维度的信息,把数据移动到指定分区。查看MaxCompute内部表、视图、外部表、聚簇表或Transactional表的信息。您可以在创建表时设置生命周期,也可以对已有的表设置生命周期或修改生命周期时长。列出项目下所有的表、视图或符合某规则(支持正则表达式)的表、视图。列出一张表中的所有分区。为已存在的非分区表或分区表同时修改列名称和列注释。为已存在的非分区表或分区表添加列或注释。为已存在的非分区表或分区表修改列注释。原创 2024-02-28 10:09:23 · 421 阅读 · 0 评论 -
【大数据】-- dataworks 创建odps 的 hudi 外表
注意事项:必须要执行更新分区的操作命令,否则 odps 不能查询到数据。举例:创建 odps 的 hudi 外表。原创 2024-02-28 10:03:22 · 470 阅读 · 0 评论 -
【Flink on k8s】- 2 - 简要介绍 Kubernetes
2019 年 3 月,Kubernetes 项目发布了 1.14 版本,引入了 Pod Topology Spread 和 Pod Overhead 等新特性。2017 年 12 月,Kubernetes 项目发布了 1.9 版本,引入了 StatefulSet 和 Workload API 等新特性。2016 年 3 月,Kubernetes 项目发布了 1.2 版本,引入了许多新特性,包括自动扩展、服务发现和负载均衡等功能。原创 2023-12-05 14:45:30 · 551 阅读 · 0 评论 -
【数据仓库-10】-- 数据仓库、数据湖和湖仓一体对比
引用《DataFunCon 2021》大会上的老师总结的数仓、数据湖和湖仓一体之间区别。数据湖则是一种架构,通常是围绕对象存储为“湖底座”的大数据管理方案组合。作为原始数据,非结构化数据的数据库,数据湖的主要使用对象是。1、写入型Schema(Schema on write)结构化数据,使用非常方便,主要的使用对象是。4、数据集成前,需要完成大量清洗加工操作。2、数据在使用的时候再定义 schema。2、数据写入前需定义好 schema。3、提供敏捷、简单的数据集成。2、结构化、半结构化的数据。原创 2023-12-05 11:56:22 · 443 阅读 · 0 评论 -
【Flink基础】-- 延迟数据的处理
延迟是数据从网络上的一个点传递到另一个点所需的时间。假设北京的服务器 A 向成都的服务器 B 发送一个数据包。服务器 A 在格林威治标准时间 10:20:00.000 发送数据包,服务器 B 在格林威治标准时间 10:20:00.125 接收数据包。此路径上的延迟量是这两个时间之间的差值:0.125 秒或 125 毫秒。大多数情况下,延迟是在用户设备(“客户端”设备)和数据中心之间测量的。该测量值可帮助开发人员了解网页或应用程序为用户加载的速度。原创 2023-12-05 11:07:04 · 1064 阅读 · 0 评论 -
【数据仓库】-- 数据库设计的三个范式
数据库设计的范式是一种规范,用于确保数据库表的结构和数据存储方式能够有效地支持数据的存储、检索和维护。它们是一系列规则,旨在确保数据不会重复存储,以及确保数据在表中的排列方式最大程度地减少了数据冗余和不一致性。常见的数据库设计范式包括第一范式(1NF)、第二范式(2NF)、第三范式(3NF)和BC范式(BCNF)。每个范式都有其自己的规则和要求,需要在设计数据库表时逐步满足。我们在实际应用中,一般只考虑三大范式(1NF、2NF和3NF)。原创 2023-11-29 15:08:26 · 412 阅读 · 0 评论 -
【BI工具】-- Superset 、Metabase 和 Redash 对比
开源,但已经有近2年未发布新版本。Github start 数量。第一个 release 版本。中国-盈尺网络科技有限公司。国外-databricks。针对产品经理、运营人员。非技术人员也容易上手。原创 2023-10-12 16:06:07 · 857 阅读 · 0 评论 -
【Flink on k8s】- 9 - 本地部署 Flink kubernetes operator
flink kubernetes operator 版本: 1.4.0helm 版本: 3.1.0flink kubernetes operator 支持的 Flink 版本:v1.13, v1.14, v1.15, v1.16。原创 2023-08-11 10:30:41 · 1005 阅读 · 0 评论 -
【数据湖】-- Apache Hudi vs Delta Lake vs Apache Iceberg - Lakehouse Feature Comparison
本文转载已获取原文著作公司同意,若要转载,请邮件联系原文著作公司!联系邮箱:info@onehouse.ai。转载 2023-05-18 17:27:07 · 468 阅读 · 1 评论 -
【数据湖】-- Apache Hudi 表的两种存储类型
这个过程对所有的线程都是透明的,也就是说 AC 两个线程使用的还是原来的内存数据,当线程B将数据更改后,系统将数据指针移向修改后的数据段上,这样在所有线程都不知情的情况下完成了数据的更新操作。在新的副本上进行写入操作,这种方式带来的问题就是在每次数据写入时,都需要重写整列数据文件,哪怕只有一个字节的数据写入(即。每次新数据的写入,都会基于当前的数据文件产生一个带有提交时间戳的新副本文件,新数据会插入到当前的新副本文件中,直到整个操作没有完成前,所有的查询操作都不会看到这个新的文件副本。原创 2023-05-05 16:21:04 · 779 阅读 · 0 评论 -
【数据仓库-9】-- 数据仓库、数据集市和数据湖的区别
零售行业销售数据集市通常包含销售记录、库存信息、客户数据等结构化和半结构化数据。数据集市主要用于部门级别的数据分析和报表制作,如分析特定地区的销售业绩、某一门店的库存状态等。零售行业销售数据集市具有适度组织化的数据模式,适度扩展性,并且可能具有适中的存储和计算成本。社交媒体数据湖通常包含用户生成的文本、图片、视频等结构化、半结构化和非结构化数据。这些数据在数据湖中可以直接进行处理和分析,例如ELT或ETL操作。社交媒体数据湖支持多种数据模式和类型,具有高度可扩展性和弹性,并且可能具有较低的存储和计算成本。原创 2023-04-03 09:19:03 · 416 阅读 · 0 评论 -
【数据仓库-8】-- 维度数据模型建模的基本过程
建立维度表:在确定好维度后,需要建立维度表,维度表是指记录维度属性的表,比如时间维度表、产品维度表等。在维度表中,每一行记录都表示一个维度值,每一列表示一个维度属性。维度数据模型是一种用于表示业务数据的结构化方式。原创 2023-03-28 14:27:03 · 194 阅读 · 0 评论 -
【Hive基础】-- Hive Catalog
2.2 Hive Catalog 的组成部分。4.3 Hive Catalog 的性能优化。4.2 Hive Catalog 的自定义。1.2 Hive Catalog 的作用。2.Hive Catalog 的基础知识。2.1 Hive Catalog 的类型。2.3 Hive Catalog 的架构。4.1 Hive Catalog 的扩展。5.1 Hive Catalog 的优势。5.2 Hive Catalog 的不足。5.3 Hive Catalog 的未来。3.2.1 HCatalog 的作用。原创 2023-03-28 11:20:37 · 862 阅读 · 0 评论 -
【数据仓库-7】-- 使用维度建模的一些缘由
维度建模的设计使得数据仓库和商业智能系统易于扩展和维护,可以快速地适应业务变化和数据增长。总而言之,维度建模是一种简单、直观、灵活、可靠、易于维护的数据仓库和商业智能系统设计方法。:维度建模使用直观的图形和术语,使得非技术人员也能够理解和使用数据仓库和商业智能系统。:维度建模强调数据的一致性和质量,使得数据仓库和商业智能系统的数据更加可靠和准确。:维度建模基于维度和事实表的设计,使得用户可以方便地进行灵活的查询和分析。:维度建模是一种迭代开发方法,能够快速开发和部署数据仓库和商业智能系统。原创 2023-03-27 11:36:07 · 614 阅读 · 0 评论 -
【数据仓库-6】-- 业务需求模版
在这里简要描述业务需求的背景和目的。原创 2023-03-21 14:23:02 · 374 阅读 · 0 评论 -
【数据仓库-0】--如何学习数据仓库?
了解数据库的基本概念、结构和操作方法,如Hive SQL语言的使用。掌握数据模型设计的方法和技巧,包括实体-关系模型(ER模型)和维度建模(Kimball)等。学习数据抽取(Extraction)、转换(Transformation)和加载(Loading)的技术和工具,包括数据清洗、数据集成和数据转换等。了解数据仓库的体系结构和组成部分,包括数据仓库、数据集市、数据湖等。掌握数据仓库建设的方法论和流程,包括需求分析、数据建模、ETL开发、数据仓库构建和维护等。可以通过阅读相关的教材、参加培训课程(如培训机原创 2023-03-20 23:22:21 · 250 阅读 · 0 评论 -
【数据仓库-5】-- 数据仓库的要求
在设计数据仓库的整体架构时,为了保证数据的安全性,必须要有适当的授权机制去限制访问机密和敏感的数据。(三)、历史可追溯性。原创 2023-03-21 10:45:30 · 248 阅读 · 0 评论 -
【数据仓库-4】-- 提取、转换、装载(ETL)
又如,性别字段,有些系统使用的是1和0,有些是"M"和"F",有些是"男’和"女",统一成"M"和"F"。假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。对于流水表(只增加,不修改的表),全量数据入仓后,后续的数据,只需要按分区存储即可。例如,将“Male”改成“M”,将空数据字段映射到数字 0,将数据值“Parent”映射到“P”,或将“Child”映射到“C”。在数据准备中,联结将链接来自不同数据来源的相同数据。例如,汇总销售数据。原创 2023-03-17 14:53:47 · 2261 阅读 · 0 评论 -
【数据仓库-3】-- Kimball 和 Inmon 架构
Inmon数据仓库采用自上而下的方法。它将数据仓库定义为整个企业级的集中存储。数据仓库存放着最低的详细级别的原子数据。维度数据集市只是在数据仓库完成后才创建的。因此,数据仓库是企业信息工厂(CIF)的中心,它为交付商业智能提供逻辑框架。原创 2023-03-16 14:22:49 · 358 阅读 · 0 评论 -
【数据仓库-2】-- 操作性系统与分析型系统
操作型系统是一类专门用于管理面向事务的应用的信息系统。事务是工作于数据库管理系统(或类似系统)中的一个逻辑单元,该逻辑单元中的操作被以一种独立于其他事务的可靠方式所处理。事务一般代表着数据改变,它提供 “all-or-nothing” 操作,就是说事务中的一系列操作要么完全执行,要么完全不执行。保证工作单元的可靠性。当数据库系统异常宕机时,其中执行的操作或者已经完成或者只有部分完成,很多没有完成的操作此时处于一种模糊状态。在这种情况下,数据库系统必须能够恢复到数据一致的正常状态。原创 2023-03-15 14:23:15 · 408 阅读 · 0 评论 -
【数据仓库-1】-- 数据仓库的定义、为什么要建数据仓库?数据仓库的好处?应用场景?
大多数情况下, 数据会以很低的粒度级别进入数据仓库, 如日志类型的数据或单击流数据, 此时应该对数据进行编辑、 过滤和汇总, 使其适应数据仓库环境的粒度级别。联机事务处理反应的是当前时间点的数据情况, 要求高性能、 高并发和极短的响应时间, 出于这样的需求考虑, 联机事务处理系统中一般都将数据依照活跃程度分级, 把历史数据迁移到归档数据库中。也就是说, 数据仓库中的数据基本是静态的。Inmon 将数据仓库描述为一个面向主题的、 集成的、随时间变化的、 非易失的数据集合, 用于支持管理者的决策过程。原创 2023-03-15 11:55:35 · 496 阅读 · 0 评论 -
【Hive进阶】-- 导出 hive 表数据的几种方式
在日常的工作中,常常会有导出 hive 表数据的需求。在此,我整理了如下几种方式,供大家参考。然后使用 hdfs 命令下载。原创 2023-03-13 14:32:02 · 2164 阅读 · 0 评论 -
[Hive排序]--4种排序方式介绍
一、官方文档https://cwiki.apache.org/confluence/display/Hive/Homehttps://cwiki.apache.org/confluence/display/Hive/LanguageManualhttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+SortBy...原创 2017-09-17 18:53:56 · 22154 阅读 · 2 评论 -
[Hive 进阶]-- 7种可以提高 Hive 查询速度的方法
如何提高Hive 的查询性能?Apache Hive是一种强大的数据分析工具。在处理数PB的数据时,了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的,如有不足之处,望指出。1、使用Tez引擎Apache Tez Engine是一个可扩展的框架,用于构建高性能批处理和交互式数据处理。它由YARN在Hadoop中 调度。Tez通过提高处理速度和保持MapRedu...原创 2019-07-17 11:26:36 · 21494 阅读 · 1 评论 -
【Hive 基础】-- 数据倾斜
由于数据分布不均匀,导致大量数据集中到一点,造成数据热点。常见现象:一个 hive sql 有100个 map task, 有一个运行了 20分钟,其他99个 task 只运行了 1分钟。原创 2023-03-08 15:54:01 · 1647 阅读 · 0 评论 -
【大数据】-- Flink 1.16.0 发布
flink 1.16.0 发布说明翻译 2023-03-01 09:58:36 · 451 阅读 · 0 评论 -
【大数据】-- 实时数据仓库的五大特点
实时数据仓库的特点原创 2023-02-28 10:41:47 · 323 阅读 · 0 评论 -
[Hive 基础]-- 使用 Map 和 Array 数据结构
Hive 处理复杂数据时,可以使用支持的复杂数据结构1、map1.1 可以存储如下数据"geo": {"country": "中国","subdivision": "安徽","city": "合肥","latitude": "31.86141","longitude": "117.27562","isp": "电信"}说明:geo 代表hive 表字段名称,冒号后的...原创 2020-03-26 17:46:29 · 1669 阅读 · 0 评论 -
[数据仓库]--实时数据仓库设计目录
1 需求分析 1.1 业务需求 1.2 用户需求 1.2.1 使用数据平台的用户的需求 1.2.2 需要的数据 1.2.3 分析的内容 1.3 功能需求 1.4 数据需求 1.4.1 要接入哪些数据 1.4.2 指标体系是怎样 1.4.2.1 性能要求 1.4.2.2 查询方式 1.4.3 数据来源于内...原创 2019-04-17 11:40:42 · 873 阅读 · 0 评论