模型入门需要关注的五大问题
1. 数据集是什么?(都自带哪些信息)
2. 模型的输入具体是什么?(使用数据集的哪一部分作为输入)
3. 模型预测哪些值?
4. loss计算时,标签值是否可以直接获取?
5. 评估/推理时,网络预测值是否需要decode?
1. Pipeline
什么是Pipeline?
pipeline,即操作流水线,也称综合解决方案。
Pipeline是由很多组件步骤链接起来的“一条龙服务”方案。
一个基础的深度学习的Pipeline 主要包含了下述 5 个步骤:
- 数据读取
- 数据预处理
- 创建模型(具体到模型也有相应的Pipeline,比如模型的具体构成部分:比如 GCN+Attention+MLP的混合模型)
- 评估模型结果
- 模型调参
2. 数据增强
什么是数据增强?
数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。
数据增强的作用?
数据增强的本质是为了增强模型的泛化能力、 避免过拟合。
数据增强有哪些常见方法?
2.1. 单样本数据增强
所谓单样本数据增强,即增强一个样本的时候,全部围绕着该样本本身进行操作,包括几何变换类,颜色变换类等。
(1) 几何变换类:翻转,旋转,裁剪,变形,缩放等

(2) 颜色变换类:噪声、模糊、颜色变换、擦除、填充等


2.2. 多样本数据增强
不同于单样本数据增强,多样本数据增强方法利用多个样本来产生新的样本,例如GAN,生成新的样本数据。
3. 正负样本不均衡问题
什么是正负样本?
正样本是指属于某目标类别的样本,负样本是指不属于目标类别的样本
正负样本不均衡会带来什么问题?
主要是对分类的影响,在分类模型中,模型更偏向对多数类的预测概率,从而导致少数类的预测精度大幅度下降,虽然整体来看精度很好,但这与实际工作不符。
例如在一张图中,正样本数量为1-10,而负样本数量为100-1000,则这么多的负样本不仅对训练网络起不到什么作用,反而会淹没掉少量但有助于训练的样本。
解决办法?
文章介绍了深度学习入门时需要注意的五个关键问题,包括理解数据集、模型输入和预测值、损失函数的标签获取以及推理时的解码需求。此外,讨论了Pipeline在深度学习中的应用,数据增强的方法及其对泛化能力的影响,以及如何应对正负样本不均衡的问题,强调了这些问题在模型训练中的重要性。
50

被折叠的 条评论
为什么被折叠?



