数据集增强与模型选择:提升机器学习项目效能
1. 数据集偏差检测与监控
在机器学习项目中,数据集的偏差检测与监控至关重要。不同类型的数据有不同的偏差检测方法:
1.1 表格数据
- 标签引入 :检测表格数据中的偏差需要计算一些统计量,首先要在数据集中设置真实标签,以表明某个群体内部或外部的状态。即便没有专门标注群体成员的列,也应假定数据存在偏差,引入标签是识别和消除数据集固有偏差的唯一方法,若无法引入标签,也可使用代理标签,但存在一定缺陷。
- 评估指标 :有预训练和训练后两种类型的指标。预训练指标如类别不平衡,计算公式为优势群体的观测数量减去劣势群体的观测数量,再除以数据集的总大小。若类别不平衡度过高,数据集和后续模型必然存在偏差。训练后指标如差异影响,即劣势群体中预测为正的标签数量除以优势群体中预测为正的标签数量,在就业或法律等领域,该指标很关键,通常以 4/5(80%)作为下限。
1.2 视觉和语言数据
- 语言数据 :通常评估语言模型在特定条件下对给定类别的偏好,例如在某些就业标准下使用“他”或“她”。
- 视觉数据 :可使用预训练的文本分类器确保训练前数据集的平衡,还能明确指出模型在检测某些类别时的不良表现,如图像识别中的特定群体。
2. 数据集增强
2.1 多语言增强
多语言意味着支持多种语言。虽然许多先进的语言模型最
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



