一、别再纠结数据模型了,先看看它在网安界的“朋友圈”!
各位网安同仁,咱们今天不聊“0day漏洞”,也不谈“APT攻击”,来点轻松的——数据模型!
等等,别走啊!我知道一听这名字就想睡觉,但它可是数据架构里举足轻重的一员,和数据资产目录、数据标准、数据分布并称“数据架构F4”。
(图片友情出演:《华为数据之道》)
说白了,数据模型就是一套“游戏规则”,告诉你数据该怎么组织、怎么存储、彼此之间有什么关系。它就像网安界的“葵花宝典”,指导着IT开发,是应用系统的基石。
数据模型总共有三层“段位”:
- 概念模型: 业务大佬的“顶层设计”,不谈技术,只聊业务。
- 逻辑模型: 承上启下,既要理解业务,又要指导技术,保证需求的完整性。
- 物理模型: 最终落地,代码实现,还得考虑性能,是真正的“码农”干的活儿。
这三层模型,一层比一层更接地气,最终才能把数据模型变成现实。
模型类型 | 模型定义 | 主要作用 | 与上一层的关系 | 所包含的核心要素 |
---|---|---|---|---|
概念模型 | 站在用户的角度,用他们的语言描述数据,是整个数据建模的起点。它就像网安战略规划,定义了核心概念、实体、关系和业务规则,但不涉及具体的技术细节。 | 就像需求调研,摸清业务的真实需求,让业务和技术人员能愉快地交流,为后续设计指明方向。 | 是逻辑模型的基础,没有概念模型,逻辑模型就是空中楼阁。 | 1. 实体(Entity): 比如“用户”、“设备”、“漏洞”等,代表网安领域的核心对象。2. 属性(Attribute): 描述实体的特征,比如“用户ID”、“设备IP”、“漏洞等级”等。3. 关系(Relationship): 描述实体之间的联系,比如“用户与设备的绑定关系”、“漏洞与系统的关联关系”等。 |
逻辑模型 | 在概念模型的基础上,进行更深层次的抽象,相当于网安方案设计。它描述了数据库的整体逻辑结构,需要考虑数据的完整性约束和业务规则的实现。 | 细化数据结构,确保数据完整性,指导数据库的实现,让数据井井有条,有规可循。 | 在概念模型的基础上进一步细化,并为物理模型提供指导,是承上启下的关键。 | 1. 数据表(Table): 对应数据库中的表结构,用于存储数据,比如“用户表”、“设备表”、“日志表”等。2. 字段(Field): 对应表中的列,用于描述数据的属性,比如“用户名”、“IP地址”、“攻击时间”等。3. 主键(Primary Key): 唯一标识表中的每一行数据,就像身份证号一样重要。4. 外键(Foreign Key): 用于建立表与表之间的联系,确保数据的完整性,保证数据之间的关联是正确的。5. 约束(Constraint): 对数据的存储和取值进行限制,防止脏数据进入数据库。比如,用户年龄不能为负数。 |
物理模型 | 对数据的最底层抽象,相当于网安系统的代码实现。它描述数据在计算机系统内部的表示方式和存取方法,需要考虑特定DBMS的存储结构、索引方式、性能优化策略等细节。 | 关注数据存储、索引策略、分区、性能调整和数据安全等底层细节,让系统跑得更快、更稳、更安全。 | 基于逻辑模型,并考虑具体的DBMS和硬件环境实现,是最终的落地实现。 | 1. 存储结构(Storage Structure): 描述数据在磁盘等存储介质上的组织方式,选择合适的存储方式至关重要。2. 存取方法(Access Method): 描述数据的检索和更新方式,决定了数据访问的效率。3. 性能优化策略(Performance Optimization Strategy): 提高数据库的查询和更新性能,让系统响应更快。比如,建立索引、优化SQL语句等。4. 数据安全措施(Data Security Measure): 保护数据的机密性、完整性和可用性,防止数据泄露和篡改。比如,数据加密、访问控制等。 |
二、数据模型“七十二变”,到底有几种“标准姿势”?
数据模型的主要构成要素,就像网安界的“武林秘籍”,各家都有各家的说法,目前还没有统一的标准分类。
(图片来自:《企业数据架构实践指南1.0》)
上面这张图,是从企业级的视角来看数据模型,比较宏观,需要有丰富的大项目经验才能理解。重点是要区分清楚企业级和系统级的区别:企业级是全公司级别的,由多个系统级构成。
再来看看《华为数据之道》的建议定义:
这张图更具体一些,还给出了示例,更容易理解。但是,还是要记住,这些分层没有标准答案,落地的时候要结合实际业务来划分。
记住:没有标准答案
,只有最佳实践
!
三、数据模型建设“三步走”,轻松玩转网安数据!
这张图来自阿里云的帮助文档,个人觉得已经非常清晰了,简直是“一图胜千言”。
三个重点必须掌握:
1、维度建模: 后面有机会再详细介绍,简单来说就是从业务的角度来组织数据。
2、数据标准的构建: 同样后面有机会再聊,就是统一数据的口径,避免出现“你说你的,我说我的”情况。
3、概念模型、逻辑模型、物理模型的核心要素: 前面已经讲过了,不记得的回去复习!
四、数仓顶层设计“小抄”,拿走不谢!
顺手写了一个数仓的顶层设计示例,虽然有点偏离数据模型,但这些内容在现代数据开发流程中,都是紧密联系在一起的。
重点解释:
- ODS层: 企业级的,面向全公司构建。按照“子公司→来源系统分类→来源系统→来源Schema→来源物理表”的思路,简单清晰。
- DWD层、DWS层: 最好按照业态进行逻辑分类隔离。一级分类按照业态,二级分类按照各自的业务过程。
- DIM层: 构建起来比较复杂,不同业态下想抽出公共维度的难度极高。通常能抽取出来做公共维度的模型,也就客户、日期、机构等。机构本身都比较麻烦,很多公司的机构组织形式极其复杂。
- 企业级: 就是全公司的所有业务形态合并到一起。如果小公司,通常业务很单一,建模随便搞也不会乱到哪里去。但是如果是大公司,公司有多种业务形态,例如有电商子公司、有金融子公司、有旅游子公司,那么不好好分类归集,后续还要做跨子公司的分析,那就难咯。
五、实战演练:阿里云数仓构建示例
这个示例来自阿里云的数仓构建示例:如何使用维度建模_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心。
这个示例将整个数仓的构建流程讲得非常清楚,个人也觉得难以写得更好了,也没有能力再去重复这个工作了。如果真要看一些小的实战例子,可以看看我以前写的ODS、DWD、DWS构建相关的文章。
下面的示意图是抽取了阿里云示例中的与用户注册相关的构建活动内容,完整的还是建议看看下阿里云帮助文档,会更容易的理解。
步骤一: 对数仓设计主题域(业务分类),其次做数据分层。其次,示例中对标准做了一些简单的规范,实际工作还涉及调度、代码等规范:
步骤二: 制定数据标准。数据标准包含字段标准(标准词根,通常是业务词汇,例如产品的中文名、英文名)、标准代码(性别,其代码值为男和女)、度量单位(人数、元)。要做企业级的数据标准是很难的,因为大公司有太多的存量系统,即便是一个性别字段都有很多套不同的码值,所以对于新项目一定要建立统一的标准,不然以后极其难以维护,避免在数仓和集市花费大量的精力去转换码值。
步骤三: 设计数据指标。包括原子指标和衍生指标。
-
原子指标: 也称为度量,是不加任何修饰词的指标,一般存在于OLAP(联机分析处理)表中,涉及聚合操作。它是业务定义中不可再拆分的指标,具有明确业务含义的名词。原子指标等于业务过程(原子的业务动作)加上统计方式,统计方式通常是做聚合计算。简单来说,原子指标就是描述一个业务过程的量化属性,例如“订单金额”、“交易笔数”、“交易用户数”等。这些指标是构建更复杂指标的基础。
-
衍生指标: 则是基于原子指标进行二次计算或结合其他因素(如时间周期、修饰词等)产生的指标。它可以是利用公式对原子指标进行加减乘除运算得到的,也可以是通过添加修饰词对原子指标进行限定得到的。例如,“近7天订单量”、“近1个月的新增用户数”、“平均订单金额”等都是衍生指标。这些指标提供了对业务过程的更深入分析和理解。
两者的关联性:
- 基础与衍生: 原子指标是衍生指标的基础。没有原子指标,就无法构建衍生指标。衍生指标是在原子指标的基础上,通过一定的计算规则或添加修饰词得到的。派生指标由原子指标、修饰词、时间周期构成。
衍生指标构建在基础指标之上,形成结构化的指标体系。
-
互补性: 原子指标和衍生指标在数仓架构中相互补充。原子指标提供了对业务过程的基本量化描述,而衍生指标则提供了更深入、更细致的分析视角。
-
共同服务于业务分析: 无论是原子指标还是衍生指标,它们都是为业务分析服务的。通过这些指标,企业可以更好地了解业务状况,发现业务问题,并制定相应的业务策略。
步骤四: 设计公共维度和明细数据层。这块略显复杂,多参悟下阿里云的帮助文档,以及维度建模的相关资料。
步骤五: 设计汇总模型和应用模型。
汇总模型会涉及统计的维度和对应的指标
应用模型也会涉及使用相应的指标:
以上至少简要的描述,具体请参考阿里云例子,并仔细参悟。
黑客/网络安全学习包
资料目录
-
成长路线图&学习规划
-
配套视频教程
-
SRC&黑客文籍
-
护网行动资料
-
黑客必读书单
-
面试题合集
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
*************************************优快云大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享*************************************
1.成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
*************************************优快云大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享*************************************
2.视频教程
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
*************************************优快云大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享*************************************
3.SRC&黑客文籍
大家最喜欢也是最关心的SRC技术文籍&黑客技术也有收录
SRC技术文籍:
黑客资料由于是敏感资源,这里不能直接展示哦!
4.护网行动资料
其中关于HW护网行动,也准备了对应的资料,这些内容可相当于比赛的金手指!
5.黑客必读书单
**
**
6.面试题合集
当你自学到这里,你就要开始思考找工作的事情了,而工作绕不开的就是真题和面试题。
更多内容为防止和谐,可以扫描获取~
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取
*************************************优快云大礼包:《黑客&网络安全入门&进阶学习资源包》免费分享*********************************