利用 T-SQL 进行数据转换与清洗
1. 数据转换的必要性
在数据科学领域,数据转换是必不可少的环节,主要有以下两个原因:
- 获取合适的数据集 :数据科学模型通常基于统计总体数据集,在分析或机器学习训练前进行数据连接(JOINs)可能会使模型变得复杂,影响训练时间。
- 应对数据多样性 :数据来源广泛,其产生速度、存储和处理的数据模型各不相同。具体来说:
- 手动录入数据 :这是一种传统且缓慢的数据创建方式,常见于会计、商店等系统。由于部分系统老旧,缺乏足够的数据质量检查机制,可能存在不准确的历史数据。
- 机器或生产线产生的数据 :这类数据的产生速度正在迅速增加,数据相对简单,通常描述相同的度量。关系型数据库在这类数据处理中应用广泛。
- 物联网或类似应用产生的数据 :数据生成速度极快,多数情况下不适合使用关系型数据库,而更倾向于使用 NoSQL 数据库,如 MongoDB 或 CosmosDB。
影响数据转换需求的因素包括:
- 数据创建速度
- 数据操作和存储使用的数据模型
- 数据准确性
- 为数据科学建模获取合格数据所需的多个数据源的组合
数据科学任务的要求如下:
- 数据源的传入数据应定期用于机器学习模型训练。
- 确定新记录添加到源数据与使用训练好的机器学习模型分析新记录之间可接受的数据延迟。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



