13、机器学习中的数据收集与处理

z2a3b4c5d

于 2025-09-03 16:17:47 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习系统设计的艺术文章标签：机器学习数据收集特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/z2a3b4c5d/article/details/152239871

机器学习系统设计的艺术专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的数据收集与处理

1. 数据收集算法

在数据收集过程中，有一个流行的算法：先查看一部分数据子集（可以随机选择，也可以基于一些初步的见解或反馈），找出其中的模式，然后将这些模式反映在代码中以扩大覆盖范围，接着再查看更窄的子集。

需要注意的是，数据过滤不当会带来问题。如果不进行数据过滤，数据集中会存在大量噪声，导致整个系统性能变差；但过度激进的过滤也可能产生负面影响，比如扭曲数据分布，使模型在真实数据上的表现变差。

2. 特征工程

特征工程是指以一种对机器学习算法最有价值的方式转换数据视图。在机器学习系统设计的早期阶段，通常不会详细讨论这个话题，此时更关注如何获取初始数据来构建基线模型，这需要一定程度的抽象。

有时候，特征不是手动创建的，而是由更复杂的模型生成的。与“常规”特征不同，这些特征可能是人类无法直接读取的向量，此时使用“表示”这个术语更为准确。例如，在一个以机器学习为主的大型组织中，可能有一个核心团队构建模型，以大规模生成用户、商品或其他项目的最佳表示。该模型并不直接解决业务问题，但应用团队可以使用它为特定需求生成表示，这种模式在处理图像、视频、文本或音频等数据时很常见。

3. 数据标注

3.1 标注的重要性

在许多情况下，数据集本身价值不大，但添加额外的注释（在机器学习领域通常称为标签）会带来巨大改变。决定使用何种标签非常重要，因为它会影响后续的许多选择。

3.2 标注方式

以构建医疗辅助产品为例，该系统帮助放射科医生分析患者图像。常见的标注方式有：
- 二元分类方式：图像中是否存在恶性肿瘤？

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。