自然语言处理与数据科学中的预测有效性探讨
在自然语言处理(NLP)和数据科学领域,预测有效性的概念尚未有明确定义,也缺乏像分类任务中精度(衡量预测质量)、召回率(衡量预测数量)那样被广泛接受的评估指标。本文旨在清晰定义NLP和数据科学中有效性的概念,并将其转化为可操作的方法,以应用于通用的NLP和数据科学任务。
1. NLP和数据科学中的有效性问题
在NLP和数据科学中,存在一些与有效性相关的问题,这些问题在文献中常以数据集偏差、信息泄露或循环性等名称被讨论,但未明确提及有效性的概念。实际上,这些问题都可视为更广义的有效性问题的不同方面。
1.1 偏差特征
在机器学习模型的可解释性或可信度讨论中,常出现数据中的表面模式,这些模式表现为与目标标签存在虚假但高度相关性的特征,即偏差特征。数据集偏差可能源于众包工作者采用特定启发式方法进行快速高效标注,也可能由突出的标注示例或过于严格的标注指南导致。
例如,在自然语言推理任务中,众包工作者通过在假设中加入否定词来构建矛盾关系,使得无需查看前提就能推断出矛盾类标签。类似的偏差或捷径特征在NLP数据中也有其他表现形式,如阅读理解和自然语言推理中的词重叠偏差、论点挖掘中的词汇线索、视觉问答中的问题类型等。
数据集偏差的问题在于,机器学习模型为了最小化训练误差,会从数据中继承这种偏差。为解决标注偏差问题,提出了一些策略,如对抗性地操纵文档,使偏差特征分布在所有类别中。具体操作如下:
- 在问答任务中,在问题和答案中使用相同词汇的干扰句,避免简单的词重叠偏差带来的优势。
- 在自然语言推理中,使用在假设和前提中使用相同词汇的句子对,打破词重叠偏差。
-
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



