
数据仓库
文章平均质量分 83
javastart
专注于大数据 AI
展开
-
得物供应链复杂业务实时数仓建设之路
由于 join 算子是对 join 键做 hash 后走不同的分片处理数据 ,开启了 2 个并发后,再因为 header_id 字段的值变化,detail 表 2 次数据流走到了 2 个不同的 taskmanage,而不同的线程是无法保证输出有序性的 ,所以数据有一定的概率会乱序输出,导致期望的结果不正确,现象是数据丢失。在这么复杂的业务背后,我们需要精细化关注人货场车的效率和成本,每一单的及时履约情况,要做到这一点我们需要各粒度和维度的数据来支撑我们的精细化管理。可以解决代码规范,和提升开发效率。转载 2023-06-13 17:09:12 · 880 阅读 · 0 评论 -
一文彻底搞懂实时数仓如何选型和构建
一文彻底搞懂实时数仓如何选型和构建_csdn-延的博客-优快云博客原创 2023-06-13 15:34:36 · 389 阅读 · 0 评论 -
数据仓库之数据质量监控
数据仓库之数据质量监控_数仓数据质量监控_往事随风_h的博客-优快云博客原创 2023-06-13 14:46:43 · 278 阅读 · 0 评论 -
Flink面试题
为什么使用 Flink 替代 Spark?全局快照首先是一个分布式应用,它有多个进程分布在多个服务器上;其次,它在应用内部有自己的处理逻辑和状态;第三,应用间是可以互相通信的;第四,在这种分布式的应用,有内部状态,硬件可以通信的情况下,某一时刻的全局状态,就叫做全局的快照。回到顶部。转载 2023-05-30 18:01:18 · 1182 阅读 · 0 评论 -
Flink实时计算-深入理解 Checkpoint和Savepoint
本文没有过多的讲述源码,考虑大家的都能够读懂,其语言竟可能通俗一一点。如果有需要改进的地方,希望大家能够指出。后续我会不断的和大家一起大数据相关的技术,和大家一起交流学习。转载 2023-05-25 16:01:50 · 590 阅读 · 0 评论 -
使用DataX和sqoop将数据从MySQL导入Hive
使用DataX和sqoop将数据从MySQL导入Hive_datax mysql hive_Davidchou3165的博客-优快云博客转载 2023-05-23 13:48:16 · 273 阅读 · 0 评论 -
里程碑 | WeDataSphere 一站式开源大数据平台套件全面升级
国家 2035 远景规划提出要加快全面数字化转型的步伐,而“大数据平台”是数字化转型的基础技术之一。对于任何企业来说,建立和维护一个大数据平台都不是一件容易的事情,而建设一个有特色的、完整易用的大数据平台,显然更是一件技术难度极高的事情。基础平台由数据交换、数据分发、计算、存储四大层次组成,关注底层数据传输计算存储能力;功能平台由平台工具、数据工具、应用工具三大层次组成,关注用户各类功能工具需求实现。形成了完整的大数据平台技术体系,提供一站式的丰富数据平台组件及功能支撑。转载 2023-05-15 16:09:06 · 776 阅读 · 0 评论 -
查询时长下降10倍!网易有数 BI 物化视图设计要点与内部实践
这些应用中的查询会生成查询 DSL 给数据物化查询改写模块,结合上述中间结构中传递来的物化视图配置和 ETL 元信息,进行物化查询的改写和调整,最终生成改写后的物化 SQL,然后将物化 SQL 发送给 MPP 进行数据查询。在实际使用中发现,配置了物化视图的这些重点报告中,每天有超过 90% 的 SQL 查询能命中物化视图,在命中了物化视图的查询组件中,平均查询时长从 5000ms 下降到 500ms。接下来是一个清洗节点,用于数据筛选,例子中物化配置中的发货日期的前 7 天的筛选条件就会置于清洗节点中。转载 2023-05-15 10:47:34 · 223 阅读 · 0 评论 -
Doris + Flink + DolphinScheduler + Dinky 构建开源数据平台
在推导的过程中,通常会运用到一些比较关键的信息,下图中所展示的是 SQL 任务提交过程中构建的 StreamGraph,血缘实现的原理是基于 Pact、Contents、Predecessors 等参数实现 Source 和 Sink 字段关系的推导,但是有一些自定义的 UDF 以及连接器是不包含类似元数据的信息,比如说 Hudi 的连接器是无法进行 Hudi 的血缘。通过 Dinky 来提供一个完整的任务开发运维的平台能力,满足常见的企业数据平台需求。转载 2023-05-09 15:50:06 · 5630 阅读 · 0 评论 -
金融数仓体系建设
通过本方案的层次和模型实际,整个数仓低层(I、C)可以完全面向技术建模,完成数据的整理、清洗和集成,高层(S、R)则可以完全面向需求建模,根据实际业务构建适用、好用的分析主题模型,而无需被技术层设计所约束。缺点:由于建模限定在数据库结构之上,且是建立于企业角度,会限制整个数仓模型的灵活性,性能等,特别是对数仓的底层数据向数据集市的数据进行汇总时,需要开发复杂逻辑才能满足需求,所以更适合于小规模、逻辑简单的建模;而且,当业务发生变化,需要重新进行维度的定义和预处理,而这些处理过程往往会导致大量的数据冗余;转载 2023-04-26 14:42:22 · 929 阅读 · 0 评论 -
数据湖09:开源框架DeltaLake、Hudi、Iceberg深度对比
Delta 的房子底座相对结实,功能楼层也建得相对比较高,但这个房子其实可以说是 Databricks 的,本质上是为了更好的壮大 Spark 生态,在 Delta 上其他的计算引擎难以替换 Spark 的位置,尤其是写入路径层面。Iceberg 的建筑基础非常扎实,扩展到新的计算引擎或者文件系统都非常的方便,但是现在功能楼层相对低一点,目前最缺的功能就是 upsert 和 compaction 两个,Iceberg 社区正在以最高优先级推动这两个功能的实现;转载 2023-04-22 21:06:54 · 775 阅读 · 0 评论 -
阿里数据仓库-数据模型建设方法总结(全)
1.1 为什么需要数据建模有结构地分类组织和存储是我们面临的一个挑战。数据模型强调从业务、数据存取和使用角度合理存储数据。数据模型方法,以便在性能、成本、效率之间取得最佳平衡。成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。1.2 关系数据库系统和数据仓库。转载 2023-04-21 17:07:48 · 794 阅读 · 0 评论 -
阿里数据仓库架构与模型设计
在划分。转载 2023-04-21 16:48:27 · 613 阅读 · 0 评论 -
浅谈银行数据仓库:金融主题层建设篇
上一篇文章《浅谈银行数据仓库-分层架构》,描述银行数据仓库(下文简称“数仓”)分层架构至少包含ODM贴源层、SDM标准层、FDM主题层和ADM应用层。其中FDM层的核心诉求是把复杂的源数据化繁为简,按照业务逻辑划分出金融主题,把源数据进行拆分与整合到金融主题的模型中。关键是,金融主题应该划分成什么?每个金融主题的模型建设思路是怎样的?金融主题的数据模型该怎样维护?在解答上述问题之前,首先要了解国外主流的金融主题划分方案是如何的,如何从国外的主流方案中取经。转载 2023-04-21 14:51:50 · 3278 阅读 · 0 评论 -
TeraData金融数据模型
结合两大厂商提供的数据仓库解决方案,可以看出,其就数据仓库划分的主题基本类似,内容都差不多,只是叫法不同而已。需要注意的是,并不是国外的模型就是最合适的解决方案,并不是最先进的模型就是最佳的,要集合自己银行的特点以及业务发展模式,一味的模仿和追新并不是一件好事。数据仓库是一步一步建设的,先有基础,才有高楼大厦,基础不牢,就成“危房”了。Teradata FS-LDM是一个成熟产品,在一个集成的模型内支持保险、银行及证券,包含十大主题:当事人、产品、协议、事件、资产、财务、机构、地域、营销、渠道。转载 2023-04-21 14:47:40 · 661 阅读 · 0 评论 -
金融数仓体系建设
缺点:由于建模限定在数据库结构之上,且是建立于企业角度,会限制整个数仓模型的灵活性,性能等,特别是对数仓的底层数据向数据集市的数据进行汇总时,需要开发复杂逻辑才能满足需求,所以更适合于小规模、逻辑简单的建模;1、初步构建相对合理的数据体系结构,能够快速支持数据的集成,降低了业务迭代变化对数据模型的冲击;通过本方案的层次和模型实际,整个数仓低层(I、C)可以完全面向技术建模,完成数据的整理、清洗和集成,高层(S、R)则可以完全面向需求建模,根据实际业务构建适用、好用的分析主题模型,而无需被技术层设计所约束。转载 2023-04-21 14:32:37 · 349 阅读 · 0 评论 -
什么是Headless BI?
Headless的概念最初的来源与内容管理平台有关,一般是指内容管理平台中的一些应用不提供可视化界面,只是通过API方式把内容以数据的方式给前端。Data Staging Layer - 对于现在的敏捷BI系统来讲,一般数据的来源都是一个居中的云端数据仓库,用于存储客户已经整理好的数据。这个语义模型会定义数据集之间的关系,指标的加工算法和表达等等。从这里,可以理解Headless实际上是把GUI部分跟数据部分进行了分离,这实际上比较符合现在技术的一种发展趋势,尤其是数据要去在不同的环境中去显示的时候。转载 2023-04-20 17:26:34 · 1603 阅读 · 0 评论 -
金融数据仓库建模与演化
通过 1 和 2 内容我们能看出来,在公司贷款业务中,细节流程各不相同,但是各业务线都有相同的阶段,只是阶段中可能会有不同的操作,如车业务中,在身份核实的阶段,分为验二、验四、活体,而消费金融业务只有活体验证,在授信审核阶段,车业务分为自动审核、人工一审、人工二审,而消费金融只有自动审核,所主题流程一致,但是内部细节不同,故而对数仓建设带来困难。而且DV构建模型易于理解,降低使用学习成本。2.DV模型,若数据流程复杂,且需要有对数据进行追溯与审计,同时底层业务逻辑变化较快,则采用DV模型更为稳妥。转载 2023-04-20 14:46:43 · 723 阅读 · 0 评论 -
2022盘点工作室常用的API数据接口开发平台
2022盘点工作室常用的API数据接口开发平台_dogstarhuang的博客-优快云博客原创 2023-04-03 16:39:03 · 135 阅读 · 0 评论 -
金融数据仓库建模与演化
通过 1 和 2 内容我们能看出来,在公司贷款业务中,细节流程各不相同,但是各业务线都有相同的阶段,只是阶段中可能会有不同的操作,如车业务中,在身份核实的阶段,分为验二、验四、活体,而消费金融业务只有活体验证,在授信审核阶段,车业务分为自动审核、人工一审、人工二审,而消费金融只有自动审核,所主题流程一致,但是内部细节不同,故而对数仓建设带来困难。而且DV构建模型易于理解,降低使用学习成本。2.DV模型,若数据流程复杂,且需要有对数据进行追溯与审计,同时底层业务逻辑变化较快,则采用DV模型更为稳妥。转载 2023-03-28 09:25:18 · 697 阅读 · 0 评论 -
金融数仓体系建设
通过本方案的层次和模型实际,整个数仓低层(I、C)可以完全面向技术建模,完成数据的整理、清洗和集成,高层(S、R)则可以完全面向需求建模,根据实际业务构建适用、好用的分析主题模型,而无需被技术层设计所约束。缺点:由于建模限定在数据库结构之上,且是建立于企业角度,会限制整个数仓模型的灵活性,性能等,特别是对数仓的底层数据向数据集市的数据进行汇总时,需要开发复杂逻辑才能满足需求,所以更适合于小规模、逻辑简单的建模;而且,当业务发生变化,需要重新进行维度的定义和预处理,而这些处理过程往往会导致大量的数据冗余;原创 2023-03-27 14:46:35 · 579 阅读 · 0 评论 -
数据质量怎么监控
指标字段,我们关心它的波动程度,一般来说,会把今天的指标与昨天(日)、近7天的平均值(周)、近30天的平均值(月)做比较,看波动率,波动率超过某个阈值,则告警给DQC任务配置的人(因为配置任务的人最关心这个指标数据的质量)。结果任务产出时间:如果和下游签订了SLA协议,规定E表每天7点前产出,那么如果E表今天6点30还没产出,基线直接预警给基线负责人和任务负责人,预警时间一般会比产出时间要提前一点,给检修任务留出时间。上一点中,基线监控了一条任务流,监控强度是最大的,那么仅次于基线的就是单个任务的监控。原创 2023-03-23 22:59:33 · 1032 阅读 · 0 评论 -
一文读懂元数据管理!
在数据治理项目中,常见的元数据有数据源的元数据、数据加工处理过程的元数据、数据仓库或数据主题库的元数据、数据应用层的元数据、数据接口服务的元数据等。(1)元模型管理元模型管理即基于元数据平台构建符合CWM规范的元数据仓库,实现元模型统一、集中化管理,提供元模型的查询、增加、修改、删除、元数据关系管理、权限设置等功能,支持概念模型、逻辑模型、物理模型的采集和管理,让用户直观地了解已有元模型的分类、统计、使用情况、变更追溯,以及每个元模型的生命周期管理。业务元数据描述数据的业务含义、业务规则等。转载 2023-03-23 22:37:38 · 723 阅读 · 0 评论 -
从 ClickHouse到Apache Doris,腾讯音乐内容库数据平台架构演进实践
对于少量 Flink 作业大数据场景会导致选中的 BE 节点负载较高,因此我们尝试对 BE 提交逻辑进行优化,设置每 1 小时缓存一次 BE 列表,每写入一个批次都随机从 BE 缓存列表中获取一个进行提交,这样负载均衡的粒度就从 job 级别细化到每次提交的批次,使得 BE 间负载更加的均衡,这部分实现我们已经贡献到社区,欢迎大家一起使用并反馈。通过技术和数据的赋能,腾讯音乐娱乐持续创新产品,为用户带来更好的产品体验,提高用户参与度,也为音乐人和合作伙伴在音乐的制作、发行和销售方面提供更大的支持。转载 2023-03-23 18:46:20 · 343 阅读 · 0 评论 -
Doris架构原理
Doris是一个MPP的OLAP系统,以较低的成本提供在大数据集上的高性能分析和报表查询功能。MPP (Massively Parallel Processing),即大规模并行处理。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)注:MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。转载 2023-03-03 09:05:30 · 702 阅读 · 0 评论 -
ERD Online 4.0.3数据库在线建模(免费、更美、更稳定)
低代码是未来软件生态的重要一环,也是必不可少的一环,从这个版本开始,我们除了会持续在元数据建模上发力,也会加大在低代码系统的投入,为我们最终的愿景添砖加瓦。低版本的元数据模型,使用「导出ERD」功能,将模型导出,然后在4.0.3上使用「导入ERD」功能,即可将模型全部导入。ERD Online 的目标:通过对元数据管理,向大数据、低代码、BI、大屏应用等赋能,让数据成为企业创新的核心引擎。针对团队项目,提供细致的权限控制能力,对页面、元素、按钮进行权限划分,使每个角色具备最小权限单元,避免生产事故。转载 2023-02-20 08:42:57 · 388 阅读 · 0 评论 -
一站式元数据治理平台——Datahub入门宝典
首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。原创 2023-02-20 08:20:29 · 9498 阅读 · 0 评论 -
解决Dolphinscheduler跨任务流依赖
最近在用Dolphinscheduler搭建一个数据中台,刚把ODS层的接口抽数任务部署好,现在在开发DWD层的任务,需要新建一个DWD层的任务流,方便和ODS层接口任务流区分开,这就涉及到一个问题,因为DWD层的任务用到了ODS层的表,所以要等到ODS层任务跑完之后再调度DWD层的任务,同一个任务流中的任务只需要连线就可以设置前后依赖关系,那跨任务流如何实现任务之间的依赖呢?配置依赖的时候点击项目名称发现没有可用的项目可以选择,如果是这样,建议你用admin用户来进行配置Dependent任务节点。转载 2023-02-12 10:06:21 · 2103 阅读 · 1 评论 -
金融数据仓库之分层命名规范
微信公众号“以数据之名”关注回复2即可获取源代码和分享资源。关注他2 人赞同了该文章不以规矩,不能成方圆。火车之所以能奔驰千里,是因为它始终离不开两条铁轨;风筝之所以能飞翔万尺,是因为它总是情系着手中的线;大江东流,日月交替,大自然生生不息,用规则演绎着生命的轨迹。金融数据仓库构建亦是如此,我们需要先制定好分层及命名规范,并且不断的监督约束大家按照约定执行。否则开发者随意自由发挥,后期需要投入大量的人力成本和时间成本去重构,其困难程度也将不可预期。转载 2023-02-10 13:30:54 · 469 阅读 · 0 评论 -
SeaTunnel 还在用datax吗?新一代数据集成平台的原理和实践
从字面意义上来讲,数据集成就是把不同来源格式以及特点性质的数据在逻辑上或者物理上有机地进行集中,从而为企业提供全面的数据共享。企业可以通过高度集中的数据快速做出一系列的分析和决策,从而实现数据利用的价值。实际上,一家公司每个业务部门负责的业务线是不一样的,每个业务部门每天都在产生数据,如果把这些数据做有效的集中和处理,那么企业可以通过这些数据获得更多的业务价值。再抛出第二个问题,转载 2023-02-07 09:04:32 · 4458 阅读 · 0 评论 -
史上最全数仓建设总结(纯干货建议收藏)
本文将全面讲解数仓建设规范,从数据模型规范,到数仓公共规范,数仓各层规范,最后到数仓命名规范,包括表命名,指标字段命名规范等!目录:一、数据模型架构原则数仓分层原则主题域划分原则数据模型设计原则二、数仓公共开发规范层次调用规范数据类型规范数据冗余规范NULL字段处理规范指标口径规范数据表处理规范表的生命周期管理三、数仓各层开发规范ODS层设计规范公共维度层设计规范DWD明细层设计规范DWS公共汇总层设计规范四、数仓命名规范词根设计规范表命名规范指标命名规范一、数据模型架构原则优秀可靠的数仓体系,往往需要清晰转载 2022-09-04 19:08:12 · 3124 阅读 · 0 评论 -
数据仓库之电商数仓-- 3.1、电商数据仓库系统(ODS层、DIM层、DWD层)
数据仓库之电商数仓-- 3.1、电商数据仓库系统(ODS层、DIM层、DWD层)_FunnyPrince_的博客-优快云博客_电商数仓转载 2022-09-03 18:46:34 · 540 阅读 · 0 评论 -
数据仓库之数仓分层及hive分层
目录。转载 2022-08-28 19:15:02 · 1316 阅读 · 0 评论 -
怎么进行数据仓库分层设计及设计规范
CDM层又细分为DWD层和DWS层,分别是明细宽表层和公共汇总数据层,采取维度模型方法基础,更多采用一些维度退化手法,减少事实表和维度表的关联,容易维度到事实表强化明细事实表的易用性;那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(淘宝), 商品维度(皮包)。维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法,维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。.转载 2022-08-28 18:48:15 · 1394 阅读 · 0 评论 -
数据仓库分层设计
在之前的文章高威:浅谈数仓模型(维度建模)zhuanlan.zhihu.com中,有读者比较关注数仓分层的意义和作用,以及如何建立一个比较完善且能落地的数仓体系,所以在这里单独开一栏主要介绍数仓的分层原理,和针对不同阶段公司或者业务过程中数仓搭建主要关注的点。数据仓库,由数据仓库之父Bill Inmon 在1991 年出版的“Building the Data Warehouse”定义且被广泛接受的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。...转载 2022-08-28 18:39:37 · 693 阅读 · 0 评论 -
调度系统中不同周期任务依赖的方法(2)
调度系统中不同周期任务依赖的方法(2)转载 2022-08-20 16:18:13 · 665 阅读 · 0 评论 -
调度系统中不同周期任务依赖的方法(1)
找寻如上的方法得益于我对单元测试的使用,人的记忆据说只有 5 个槽, 比如我们短时记忆很容易记住 5 个数字,超出 5 个就略显困难了,在做复杂的推理时,过多的条件在脑中很难模拟,借助测试可以理清思路,其实测试很像是在做研究的过程,先提出一个假设,再寻找解决办法,再举出很多情况来验证这个办法是否通行,如此反复,这关乎科学。转载 2022-08-20 16:15:35 · 1165 阅读 · 0 评论 -
爱奇艺的数仓架构
爱奇艺的数仓架构转载 2022-08-20 09:52:12 · 724 阅读 · 0 评论 -
离线数仓项目, 数仓理论(概要, 建模方法, 数仓分层, 模型介绍,元数据), 数仓设计(需求分析, 数据埋点, 指标体系, 架构设计(方案选型,逻辑架构, 物理环境, 命名规范))
离线数仓项目, 数仓理论(概要, 建模方法, 数仓分层, 模型介绍,元数据), 数仓设计(需求分析, 数据埋点, 指标体系, 架构设计(方案选型,逻辑架构, 物理环境, 命名规范原创 2022-06-04 11:17:43 · 3612 阅读 · 0 评论 -
数据仓库系列:如何优雅地规划数仓体系
数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程的理解、数仓建设的交流分享、数据的使用和问题排查、数仓健康度的评估都提供了极大的帮助。需要强调的是本节是从宏观上描述数仓的框架,具体到数据模型的细节对比、存储选型和管理、接入数据源管理等数仓建设的周边在本节不涉及。通过本节的阅读,你将了解到以下知识:从业务矩阵的设计(宏观、微观)、横向的分层、纵向的分线到主题划分等角度解构数仓数仓建设的实施转载 2022-06-04 10:39:38 · 675 阅读 · 0 评论