12、数据处理与无监督学习算法详解

最新推荐文章于 2025-12-10 22:47:43 发布

fire9

最新推荐文章于 2025-12-10 22:47:43 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：工业机器学习：AI变革之力文章标签：数据处理数据湖数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fire9/article/details/152287215

工业机器学习：AI变革之力专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

数据处理与无监督学习算法详解

1. 数据处理流程

在数据处理过程中，首先要对评估中的数据进行处理，合并相似数据以生成当前的“单一事实版本”。接着，将当前“单一事实版本”的快照转换为存储历史数据的数据仓库。之后，把“数据仓库”组织成适合数据科学模型处理的数据集，包括生成数据仓库、数据集市、训练集、测试集和结果数据集。最后，将数据科学的结果作为预先批准的可交付成果进行报告，供标准报告工具使用。

2. 数据湖

数据湖是用于存储大量原始数据的存储库，它以原生格式存储数据，以满足未来的需求。与写入时架构的数据仓库不同，数据湖采用基于读取时架构的架构来存储数据，每个数据元素都被分配一个独特的标识符，并标记一组全面的元数据标签。

数据湖通常使用分布式数据对象存储进行部署，以实现读取时架构。这意味着业务分析和数据挖掘工具可以在没有复杂架构的情况下访问数据。使用读取时架构方法支持直接加载数据，并立即从中获取价值。

2.1 数据湖区域

数据湖可分为六个区域：
- 原始区域 ：是所有数据进入数据湖的入口点，也是多个数据提取处理解决方案的端点。
- 结构化区域 ：用于将原始数据转换为增强的数据源，该区域的数据采用统一格式，以协助下一个区域的处理能力，并解决任何数据质量问题。
- 精选区域 ：是整个数据湖的当前单一事实，该区域的数据仓库和数据仓库能够整合和合并来自结构化区域的数据源，并存储“实时”数据科学模型的结果。
- 消费区域 ：存储用于业务洞察

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。