文章目录
具有大量准确标注数据
具有大量准确标注数据时,优先使用监督学习的解决方案。
实际工作中,待测数据可能已知,也可能未知,其监督学习方法可以有所不同。
具有小量准确标注数据
基于规则的数据增强
筛选高概率的数据增强
图像数据增强
缩放、旋转、翻转、位移、裁剪…
逆离散化or上采样
均匀逆离散化、随机逆离散化、偏态逆离散化、线性插值…
迁移学习
数据含有标注,但与业务需求不完全相符
标注粒度过粗
例如,已有标签是【经济、体育】,业务需求则是【股票、债券、基金、足球、篮球、网球】。
标注元数不同
标注数据为一元多标签,业务需求是多元多标签
例如,已有标注是每篇文章只有一个主题【汽车、手机、娱乐】,业务场景是一篇文章可能同时含有【娱乐】和【手机】两个主题。
标注数据含噪音
原因:
标注人员不够专业导致误判
标注人员疲劳或注意力分散导致随机错误
众包标注
…
无标注数据
半监督学习方案
无监督学习方案
聚类算法
TFIDF
词向量
主题模型
线性判别式分析
…
文本数据
结构化文本数据
具有严格的格式
规则的表格数据
非结构化文本数据
自由文本,没有严格的格式
小说、新闻、散文…
半结构化文本数据
介于结构化和非结构化之间
文本简短,含有大量单词或词组
同类的半结构化文本格式相似
有些是不规则表格,可以借助分隔符或边界
XML文档、JSON文档…
日志、简历、发票、处方单、体检表、化验单…
本文探讨了在不同数据标注条件下,如大量准确标注数据、少量准确标注数据等场景下的人工智能算法训练策略。涵盖了监督学习、数据增强、迁移学习等多种方法,并详细介绍了图像数据增强技巧、逆离散化策略及半监督、无监督学习的应用。
14万+





