12、数据处理与无监督学习算法详解

数据处理与无监督学习算法详解

1. 数据处理流程

在数据处理过程中,首先要对评估中的数据进行处理,合并相似数据以生成当前的“单一事实版本”。接着,将当前“单一事实版本”的快照转换为存储历史数据的数据仓库。之后,把“数据仓库”组织成适合数据科学模型处理的数据集,包括生成数据仓库、数据集市、训练集、测试集和结果数据集。最后,将数据科学的结果作为预先批准的可交付成果进行报告,供标准报告工具使用。

2. 数据湖

数据湖是用于存储大量原始数据的存储库,它以原生格式存储数据,以满足未来的需求。与写入时架构的数据仓库不同,数据湖采用基于读取时架构的架构来存储数据,每个数据元素都被分配一个独特的标识符,并标记一组全面的元数据标签。

数据湖通常使用分布式数据对象存储进行部署,以实现读取时架构。这意味着业务分析和数据挖掘工具可以在没有复杂架构的情况下访问数据。使用读取时架构方法支持直接加载数据,并立即从中获取价值。

2.1 数据湖区域

数据湖可分为六个区域:
- 原始区域 :是所有数据进入数据湖的入口点,也是多个数据提取处理解决方案的端点。
- 结构化区域 :用于将原始数据转换为增强的数据源,该区域的数据采用统一格式,以协助下一个区域的处理能力,并解决任何数据质量问题。
- 精选区域 :是整个数据湖的当前单一事实,该区域的数据仓库和数据仓库能够整合和合并来自结构化区域的数据源,并存储“实时”数据科学模型的结果。
- 消费区域 :存储用于业务洞察

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值