
数据建模
文章平均质量分 85
数仓建模和集市建模
Litlesme
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
解决粒度不一致问题(数据建模-USS)
图中填充红色的部分标识是新加的列,尤其是桥接表中 Sales 的红色部分相当于是给原有模型添加了额外的两条连接(Sales直连Countries和ProductLines),这样做有利于多粒度的分析(另见〖上图中的后两个转换手段则是 USS 对 Targets 表与 Clients、Products 两维表连接的解决办法,即使用所谓的。这样最终得到的模型方案能够同时用于解决多种需求,不管是跨表的联合分析,还是不同粒度的分析需求,都能由这一个模型解决。蓝色的部分则标识是合并已有列生成的技术列(单一外键)。原创 2025-06-02 17:07:30 · 431 阅读 · 0 评论 -
避免分析模型不唯一(数据建模-USS)
的数据仓库中,一张维表被多张事实表所引用(有外键)是十分普遍的情况,这是合理的因为维度共用说明维度一致,这是数据仓库具备整合性的核心。图中虽然看上去只有 5 条连接线,但这个中心幅射结构实际一共暗藏着 10 条线(C₅²),可以满足所有可能的取数需求,并且还不存在两可路径。对范围内的表绘制分析模型图(设计数据模型)的过程,正是选择连接路径的过程,如果有两可路径存在,就可能出现不同用户设计的数据模型不同。多条可选路径的存在的负面影响,一是维护难度增加(不同用户可能选择不同路径),二是。原创 2025-06-02 16:57:19 · 596 阅读 · 0 评论 -
有向数据模型(数据建模-USS)
当然,这样的模型图不一定都是呈树形结构的,其中也可能有小闭环的出现(比如图中的 OrderDetails 也可能还存在直接指向 Categories 的箭头)。“两张表之间只有唯一的一条路径”意味着两张表之间只有唯一的连接方式,这样就无须担心选择了错误的连接方式并且保证了结果的唯一性,因为两可的连接方式可能会导致意想不到的不一致的结果的出现。当然,存在闭环不意味着就要从物理表的层面去消除闭环(比如删除其中一张表的外键),这种做法可能会导致信息丢失,况且多路径本身有用的,是可用于校验数据、提升分析性能的。原创 2025-06-02 16:50:14 · 307 阅读 · 0 评论 -
关系模式的分解(关系型数据库理论)
RUFrX→YFX→YRUFFFF之所以需要这个定义以及上面逻辑蕴涵的定义,是因为原生的F一般是按极小化来列出所包含的依赖,而F还纳入了由F推导出的所有可能的依赖组合(比如),这方便后面的推理分析UFURUFY⊆X⊆UX→YFX→YFZ⊆UX∪Z→Y∪ZFX→YY→ZFX→ZFX→YX→ZX→Y∪ZX→YY∪W→ZX∪W→ZX→YY⊇ZX→ZX→A1A2⋯。原创 2025-06-01 14:37:26 · 710 阅读 · 0 评论 -
关系模式的规范化(关系型数据库理论)
将一个通过(schema decomposition)从相对较低的范式转换为相对较高的一个或多个关系方案的过程叫做一个的关系方案通常表示为RUDDOMF,这里为了方便也可以简写成RUF或RA1⋯An,其中U表示属性全集,F表示数据依赖全集,D表示U中属性所来自的域,Ai表示属性.对于关系方案的规范化,如果只考虑,那么满足的方案的规范化程度已经是最高的了(则是有通用的保持的算法);如果考虑多值依赖,那么满足的方案的规范化程度则是最高的;如果只考虑。原创 2025-06-01 13:58:37 · 673 阅读 · 0 评论 -
关系模式的第四范式、第五范式(关系型数据库理论)
该算法是经过严格证明的有效的,可以上面图中的方案为例进行测试。同样,由于不保证得到的分解是。(fourth normal form,4NF)的。所以 4NF 是在 3NF 的基础上进一步剔除了非平凡的严格多值依赖的情况。的基础上,再进行以下操作便可实现 4NF(继续保持。(fifth normal form,5NF),也叫。(或说 4NF 不允许存在两个多值依赖)。显然该定义是 3NF 的进一步收紧,由于。,那么就称该关系方案是满足。原创 2025-06-01 13:53:19 · 988 阅读 · 0 评论 -
关系模式的第三范式、Boyce-Codd 范式(关系型数据库理论)
满足 3NF 但不满足 BCNF 的关系方案,同样可能会存在插入异常和修改复杂的问题,比如图中左侧表要添加新项目必须同时添加学生、要修改某项目信息得同时修改多处。(反之不然),因此通常也认为 BCNF 是扩充的(或修正的)第三范式。类似,不满足第三范式的关系方案可能存在以下几个问题(以图中左侧关系方案为例,其中。当然,按该合成法得到的分解的一组子关系方案有可能还满足。,按照下面的算法可以得到一个关于该方案的。,按照下面的算法可以得到一个对该方案的。该算法经过严格证明的有效的,可以上面的。原创 2025-06-01 13:33:28 · 560 阅读 · 0 评论 -
关系模式的第一范式、第二范式(关系型数据库理论)
(second normal form,2NF)的。不满足第二范式的关系方案可能存在以下几个问题(以图中左侧关系方案为例,其中。(first normal form,1NF)的。(atomic value),那么就称该。中的每一个元组的每一个属性都只包含。,那么就称该关系方案是满足。原创 2025-06-01 13:04:14 · 364 阅读 · 0 评论 -
函数依赖、多值依赖和连接依赖(关系型数据库理论)
(或主键),但单个或部分属性却不一定。(single-valued dependency,SVD),也就是常说的。平凡多值依赖的最简单的例子就是仅由两个属性构成的多对多的关系方案,比如。这个函数依赖只有在该部门没有同名人的条件下成立,如果允许有同名人,则。)一样都是语义范畴的概念,只能根据语义来确定一个函数依赖。(many-to-many),定义中“一组可能的。因此为进行区分,对于非函数依赖的多值依赖,可称为。时(即分解的子方案个数为 2)的连接依赖,也叫做。的关系方案进行无损连接分解的方法,可用于向。原创 2025-06-01 11:32:41 · 712 阅读 · 0 评论 -
关系、关系模式和关系表,候选键、主键和外键(关系型数据库理论)
中的关系表,通常还需要满足三个数据上的完整性要求:①实体完整性(entity integrity),主键值非空;这三种类型,其中基本表是有相应物理存储的表,查询表是查询结果集对应的表(一般存于内存中),视图表是构建在基本表之上的无物理存储的虚拟表。.笛卡尔积可表示为一张二维表,表中的每行对应一个元组,表中的每一列的值来自一个域,在 SQL 查询中也被叫做。关系方案是静态的(表结构不变),关系是动态的(表内容可能不断变化)。笛卡尔积也是域,只不过是元素为元组的域,其基数等于来源域的乘积。原创 2025-06-01 11:15:18 · 560 阅读 · 0 评论 -
统一星型模式(USS)简介
(Unified Star Schema)由 Francesco Puppini(弗朗切斯科·普皮尼)在他于 2020 年推出的与 Bill Inmon 合著的一书中提出。以早期的电话拨号服务来比喻,业务人员相当于电话用户,传统的服务方式是应用层的数据开发人员充当电话接线员,用户通过接线员去实现拨号;而 USS 的作用就是实现用户自助拨号,其中桥接表就相当于电话交换机,交换机会自动寻址自动拨号而不再需要接线员。原创 2025-05-31 12:52:25 · 686 阅读 · 0 评论