7、利用 T-SQL 进行数据转换与清洗

利用 T-SQL 进行数据转换与清洗

1. 数据转换的必要性

在数据科学领域,数据转换是必不可少的环节,主要有以下两个原因:
- 获取合适的数据集 :数据科学模型通常基于统计总体数据集,在分析或机器学习训练前进行数据连接(JOINs)可能会使模型变得复杂,影响训练时间。
- 应对数据多样性 :数据来源广泛,其产生速度、存储和处理的数据模型各不相同。具体来说:
- 手动录入数据 :这是一种传统且缓慢的数据创建方式,常见于会计、商店等系统。由于部分系统老旧,缺乏足够的数据质量检查机制,可能存在不准确的历史数据。
- 机器或生产线产生的数据 :这类数据的产生速度正在迅速增加,数据相对简单,通常描述相同的度量。关系型数据库在这类数据处理中应用广泛。
- 物联网或类似应用产生的数据 :数据生成速度极快,多数情况下不适合使用关系型数据库,而更倾向于使用 NoSQL 数据库,如 MongoDB 或 CosmosDB。

影响数据转换需求的因素包括:
- 数据创建速度
- 数据操作和存储使用的数据模型
- 数据准确性
- 为数据科学建模获取合格数据所需的多个数据源的组合

数据科学任务的要求如下:
- 数据源的传入数据应定期用于机器学习模型训练。
- 确定新记录添加到源数据与使用训练好的机器学习模型分析新记录之间可接受的数据延迟。

2. 数据库架构

2.1 直

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值