机器学习中的数据收集与处理
1. 数据收集算法
在数据收集过程中,有一个流行的算法:先查看一部分数据子集(可以随机选择,也可以基于一些初步的见解或反馈),找出其中的模式,然后将这些模式反映在代码中以扩大覆盖范围,接着再查看更窄的子集。
需要注意的是,数据过滤不当会带来问题。如果不进行数据过滤,数据集中会存在大量噪声,导致整个系统性能变差;但过度激进的过滤也可能产生负面影响,比如扭曲数据分布,使模型在真实数据上的表现变差。
2. 特征工程
特征工程是指以一种对机器学习算法最有价值的方式转换数据视图。在机器学习系统设计的早期阶段,通常不会详细讨论这个话题,此时更关注如何获取初始数据来构建基线模型,这需要一定程度的抽象。
有时候,特征不是手动创建的,而是由更复杂的模型生成的。与“常规”特征不同,这些特征可能是人类无法直接读取的向量,此时使用“表示”这个术语更为准确。例如,在一个以机器学习为主的大型组织中,可能有一个核心团队构建模型,以大规模生成用户、商品或其他项目的最佳表示。该模型并不直接解决业务问题,但应用团队可以使用它为特定需求生成表示,这种模式在处理图像、视频、文本或音频等数据时很常见。
3. 数据标注
3.1 标注的重要性
在许多情况下,数据集本身价值不大,但添加额外的注释(在机器学习领域通常称为标签)会带来巨大改变。决定使用何种标签非常重要,因为它会影响后续的许多选择。
3.2 标注方式
以构建医疗辅助产品为例,该系统帮助放射科医生分析患者图像。常见的标注方式有:
- 二元分类方式:图像中是否存在恶性肿瘤?
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



