数据处理与无监督学习算法详解
1. 数据处理流程
在数据处理过程中,首先要对评估中的数据进行处理,合并相似数据以生成当前的“单一事实版本”。接着,将当前“单一事实版本”的快照转换为存储历史数据的数据仓库。之后,把“数据仓库”组织成适合数据科学模型处理的数据集,包括生成数据仓库、数据集市、训练集、测试集和结果数据集。最后,将数据科学的结果作为预先批准的可交付成果进行报告,供标准报告工具使用。
2. 数据湖
数据湖是用于存储大量原始数据的存储库,它以原生格式存储数据,以满足未来的需求。与写入时架构的数据仓库不同,数据湖采用基于读取时架构的架构来存储数据,每个数据元素都被分配一个独特的标识符,并标记一组全面的元数据标签。
数据湖通常使用分布式数据对象存储进行部署,以实现读取时架构。这意味着业务分析和数据挖掘工具可以在没有复杂架构的情况下访问数据。使用读取时架构方法支持直接加载数据,并立即从中获取价值。
2.1 数据湖区域
数据湖可分为六个区域:
- 原始区域 :是所有数据进入数据湖的入口点,也是多个数据提取处理解决方案的端点。
- 结构化区域 :用于将原始数据转换为增强的数据源,该区域的数据采用统一格式,以协助下一个区域的处理能力,并解决任何数据质量问题。
- 精选区域 :是整个数据湖的当前单一事实,该区域的数据仓库和数据仓库能够整合和合并来自结构化区域的数据源,并存储“实时”数据科学模型的结果。
- 消费区域 :存储用于业务洞察
超级会员免费看
订阅专栏 解锁全文
6478

被折叠的 条评论
为什么被折叠?



