
数据模型
文章平均质量分 59
数据仓库模型设计基础知识、原型概览、设计流程方法等
蕊在花中羞涩
起点低,当下净,回头脏,平常路
展开
-
【风控策略开发】反欺诈Louvain算法的Python代码
Louvain算法是一种基于无向图(在社交网络中,将边没有方向的图称为无向图,边有方向的图称为有向图)的“社区”发现算法,其基本思想是先将每一个节点作为一个独立的社区,再分别计算各个节点加入其他社区后的模块度(Modularity)增量,从中选出模块度最高的一个邻居节点,合并为一个社区,待所有节点所属的社区不再变化后,将合并后的社区看成一个新的节点,重复上述过程,直到模块度不再增大。选取的节点及确定的节点之间的关系决定了要构建的网络结构,若构建的网络不合理,则最终构建的模型效果也不会很好。原创 2024-08-13 20:19:51 · 1167 阅读 · 0 评论 -
【ETL和数据模型】收益账单
数据抽取指的是从不同的网络、不同的操作平台、不同的数据库和数据格式、不同的应用中抽取数据的过程。ETL是数据抽取、转换和装载(Extract,Transformation,Loading)的英文简称,是数据仓库获取高质量数据的关键环节,是对分散在各业务系统中的现有数据进行提取、转换清洗和加载的过程,使这些数据成为商业智能系统需要的有用数据。将这些相互关联的分布式异构数据源集成在一起,能够让上层用户无视不同系统的数据差异,透明的方式访问这些数据,就是数据集成所要解决的问题。收益账单相关的关键指标。原创 2024-07-18 21:11:13 · 378 阅读 · 0 评论 -
数据资产盘点-资产目录
数据资产目录是数据管理层面的输出,如果需要进一步将数据资产在应用系统或数据平台管理落地,再结合数据结构、表结构、数据存储的物理层级,形成数据字典。数据资产目录是数据架构的基础,它列出了企业所有的数据资产,包括数据的来源、类型、格式、用途等。能管控,企业内部数据肯定是能管控的,还包括能进行管控的外部数据,比如第三方数据、上下游企业的相关的数据、市场数据。数据资产盘点的方法和步骤,主要归纳为6个阶段:构建数据标准、数据发现、数据定义、分类分级、明确归属、数据资产目录。内部数据:企业自身生产的数据,如销售记录。原创 2024-07-18 20:17:55 · 600 阅读 · 0 评论 -
基于AI大模型的数据治理
大模型是指具有数千万甚至数亿参数的深度学习模型。近年来,随着计算机技术和大数据的快速发展,深度学习在各个领域取得了显著的成果,如自然语言处理,图片生成,工业数字化等。为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了大模型这一概念。本文讨论的大模型将以平时指向比较多的大语言模型为例来进行相关介绍。大模型的原理是基于深度学习,它利用大量的数据和计算资源来训练具有大量参数的神经网络模型。通过不断地调整模型参数,使得模型能够在各种任务中取得最佳表现。原创 2024-07-18 20:10:01 · 3222 阅读 · 0 评论 -
LDM-PDM-SDM三个名词讲清数据模型设计
LDM Logical Data Model 逻辑数据模型。PDM Physical Data Model 物理数据模型。SDM Source Data Model 映射关系模型。原创 2024-06-13 21:11:58 · 1253 阅读 · 0 评论 -
数据模型设计及ETL开发的全流程
目录1.需求承接 2.需求分析3.需求评审4.模型设计5.模型评审6.代码开发7.单元测试8.代码评审9.测试报告审核10.业务测试11.投产资料提交与测试12.预投产基线13.投产上线原创 2024-06-13 21:06:56 · 241 阅读 · 0 评论 -
数据模型设计面试相关问答2
星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基于多张事实表的,而且共享维度信息。自上而下的方式(这里的上指的是数据源出发),一个企业建立唯一的数据中心,数据是经过整合、清洗、去掉脏数据、标准的、能够提供统一的视图。自下而上的方式(这里的下指的是从业务需求出发),建设数据仓库应该按照实际的应用需求,加载需要的数据,不需要的数据不要加载到数据仓库中。维度模型,在维度建模的基础上又可分为三种模型:星型模型、雪花模型、星座模型。常见的数仓模型:ER模型、维度模型。原创 2024-06-12 20:16:49 · 460 阅读 · 0 评论 -
数据模型设计面试相关问答1
维度由层次结构(关系)、层级、成员、属性组成。数据模型是依据明确的业务关系,建立基于维度、事实表以及相互间连接关系的模型,实现多角度、多层次的数据查詢和分析。维度属性是从维度中继承的属性,可以只继承主键作为事实表的外键,也可以继承维度中全部或其他部分的属性。2、单向性:“上大下小”,维度只能支撑自上而下的分解和自下而上的收敛,每个成员只能存在向上的收敛路径,不能具备向上和向下两个方向的收敛逻辑。事实表存储业务过程事件的性能度量结果,由粒度属性、维度属性、事实属性和其他描述属性组成,如图所示。原创 2024-06-05 13:41:43 · 239 阅读 · 1 评论