16、机器学习项目的数据处理与成功实践

机器学习项目的数据处理与成功实践

1. 数据共享

数据孤岛和部门、工具间的数据碎片化(可能存在专有格式)导致数据难以整合。搭建数据平台能让数据访问和使用更便捷,云数据存储可进一步简化操作。例如,Power BI 数据流中的 Azure Blob 存储数据会存于 Dataverse,可供 Azure Data Factory、Azure Databricks、Azure Notebooks 等服务访问,实现数据共享与复用。

为避免不同团队和数据存储中出现同一数据集的多个略有差异的版本,要鼓励数据共享,建立数据质量和管理流程。同事和团队间的数据共享能避免重复的数据准备工作,大家可基于彼此的工作进行拓展,提升和规范数据成果,并贡献专业知识。比如,业务分析师可用 Power BI 探索数据集以了解历史模式,数据工程师可将同一数据集用于 Azure Machine Learning 的机器学习训练,用于预测和新交易评分。Power BI 数据流可用于多个报告,还能由开发人员使用 Azure Databricks 等工具进行丰富。数据成果的共享和复用有助于更严格的数据分类、治理和生命周期管理。

2. 数据来源与治理

从业务和性能角度看,机器学习实践的数据治理很重要。若缺乏处理数据的正确框架和流程(如评估偏差、公平性、可解释性、隐私和安全等),模型的健壮性和长期性能可能不佳,且无法跟踪和衡量数据及模型变化的影响。

了解数据集的来源对于负责任地使用数据很关键。这可能是法规要求,如 GDPR 和加州消费者隐私法案。即使没有法规,在一种情况下收集的数据在其他情况下可能无用或不相关。物理或外部系统会随时间变化,传感器位置可能改变,不同的收集方法会影响数据读数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值