1 数据建模是什么?
数据建模是发现、分析和确定数据需求的过程,是数据管理的一部分。
数据常用关系模式、多维模式、面向对象模式、事实模式、时间序列模式和NoSQL模式表示,每种模式有3层模型(概念模型、逻辑模型和物理模型)。每种模型需要质量审核、批准和维护。
2 数据建模和设计的总体结构图

3 数据建模和设计的目的是什么
数据模型对数据管理至关重要,是元数据的一种重要形式。好的数据建模会降低支持成本,增加可复用性,降低构建新应用的成本。
其目的是确认和记录不同视角对数据需求的理解,为数据应用和管理活动奠定基础,其原则包括
-
格式化:数据规范,减少使用异常
-
范围定义:理解数据上下文的边界
-
知识保留记录:书面的形式存储信息和复用
4 数据建模设计的关键词有哪些
数据建模:直接输出是对组织数据的理解
数据模型:描述了组织已经理解或者未来需要的数据,一种文档形式,记录了数据需求和建模过程产生的数据定义。
建模的数据类型:类别信息(分类和分配事物类型);资源信息(基本数据、资源实体);业务事件信息(操作过程中创建的数据);详细交易信息
数据模型组件:实体、关系、属性和域
实体示例,在六种模式和三种模型中表述不同,作为核心元数据,要求清晰、准确、完整

关系是实体之间的关联,体现实体间的交互和约束。体现为关系数据库中的外键、非关系型数据库中通过边界或链接。示例如下

-
关系的基数:几 对 几,例如1对多,1对1等
-
关系的元数:涉及实体的数目,常见一元关系,二元关系,三元关系
属性:定义、描述或度量实体某方面的性质。体现为列、字段、标记或节点等。
-
标识符:唯一标识实体实例的一个或多个属性的集合,也称键;单一键、组合键(多个属性集合)、复合键(组合键+其他键)、代理键(系统生成的单一键);超键,候选键,业务键,主键,备用键。
-
标识关系与非标识关系:独立实体,非独立实体,标识关系(主键被其他实体用作外键的关系),非标识关系(主键仅被继承为子实体的非主外键属性)
域:某一属性的全部可能取值;有效值,无效值;约束(格式、逻辑规则);定义方式包括数据类型、数据格式、列表、范围、基于规则
数据建模的方法:关系建模、维度建模、面向对象建模、基于事实建模、基于时间建模和非关系型建模
-
关系建模:精确地表达业务数据,消除冗余;适合设计操作型的系统
-
维度建模:优化海量数据的查询和分析。事实表(行对应于特定的数值型度量值,元数据很重要,经验法则其占90%的数据空间),维度表(业务对象,约束的主要来源,经验法则其占10%的数据空间),雪花模型,粒度(事实表中每行的最详细信息),一致性维度(基于整个组织考虑构建,而非项目),一致性事实(跨多个数据集市的标准化术语)。
-
UML:类模型(实体、属性、操作)
-
基于事实的建模:
-
基于时间的数据模型:数据值必须按照时间顺序与特定时间值相关联。数据拱顶(中心表、链接表和卫星表,融合第三范式和星型模型);锚建模(锚、属性、连接、节点)
-
非关系型数据库:如何存储数据。文档数据库、键值数据库、列数据库和图数据库。
数据模型级别:概念层次、逻辑层次和物理层次;其中前两个为需求规划和分析活动,物理层次为设计活动
-
概念数据模型:概要数据需求,仅业务实体和实体之间关系
-
逻辑数据模型:数据需求的详细描述,不受任何技术或特定实施条件的约束,扩展自概念数据模型
-
物理数据模型:详细的技术解决方案,与特定技术相关,以逻辑数据模型为基础。常常通过对结构进行组合(逆范式化)来提高检索性能。常包含规范模型(数据流动、接口、消息等)、视图、分区(垂直分割、水平分割)、逆规范化(冗余等,平衡风险和性能)。
规范化:消除冗余或冗余导致的不一致性。第一范式、第二范式、第三范式(3NF)、Boyce / Codd范式(BCNF)、第四范式、第五范式
抽象化:扩展适用性,包括泛化(Generalization)和特化(Specialization),表现为超类和子类。
5 数据建模设计的活动有哪些
(1)规划数据建模
评估组织需求、确定建模标准、明确数据模型存储管理等,最终得出图表、定义、争议和悬而未决的问题、血缘关系
(2)建立数据模型
不断迭代的过程
正向工程:首先建立概念模型来理解需求和核心术语;然后建立逻辑模型来详细描述业务过程;最后具体的建表语句来实现物理模型
-
概念模型建模:选择模型类型,选择表示方法,完成初始概念模型,收集组织中最高级的概念和活动,合并术语,获取签署
-
逻辑模型建模:分析信息需求,分析现有文档,添加关联实体,添加属性,指定域,指定键
-
物理模型建模:解决逻辑抽象,添加属性细节,添加参考数据对象,指定代理键,逆规范化,建立索引,分区,创建视图
逆向工程:记录现有数据库的过程,从物理模型到逻辑模型再到概念模型。
(3)审核数据模型
持续改进来控制模型质量,评估模型的正确性、完整性和一致性
(4)维护数据模型
需求或业务流程发生变化时,都需要对数据模型进行更新。,结束开发迭代时,对最新的物理数据模型进行逆向工程
6 数据建模设计的工具有哪些
数据建模、模型血缘、数据剖析工具和元数据资料库
-
数据建模工具:自动实现数据建模功能,绘图、正向工程和逆向工程等,Power Designer
-
数据血缘工具:捕获和维护数据模型上每个属性的源结构变化,excel
-
数据分析工具:探索数据内容,根据当前的元数据验证、识别数据质量和现有数据工件的缺陷
-
元数据资料库:存储有关数据模型的描述性信息,共享
-
数据模型模式:组件、套件和整合
-
行业数据模型:整个行业预建的数据模型,需要定制以适应组织
7 数据建模设计的方法有哪些
命名约定的最佳实践:ISO11179元数据注册
数据库设计中的最佳实践:PRISM设计原则,性能和易用性、可重用性、完整性、安全性、可维护性
8 数据建模和设计治理
(1)数据建模和设计质量管理
开发数据建模和设计标准:满足业务数据需求、符合企业和数据架构标准以及确保数据质量的指导原则
评审数据模型以及数据库设计质量:组建具有不同背景、技能、期望和意见的不同领域的专家小组对数据模型和数据库设计进行评审
管理数据模型版本与集成
(2)度量指标
数据模型计分卡

9 数据架构和数据建模设计是什么关系
数据建模是数据架构的重要组成部分和实现手段:数据架构的宏观蓝图需要通过各种数据模型(概念、逻辑、物理)来具体化和实现。数据模型是数据架构文档中的关键构件。数据架构定义了“为什么”和“做什么”,而数据建模解决“怎么做”的细节
-
数据架构是战略,关注组织的数据蓝图、治理和流动。
-
数据建模是战术,关注特定数据资产的详细设计、结构和关系。
它们彼此依赖:数据架构需要数据建模来实现其规划,而数据建模需要在数据架构定义的框架和原则下进行,以确保整体的一致性和有效性。两者共同目标是将业务需求转化为高效、可靠的数据解决方案
5030

被折叠的 条评论
为什么被折叠?



