自然语言理解的数据、成本与方法解析
1. 数据类型概述
在自然语言理解(NLU)系统开发中,有两种关键的数据类型需要关注:训练数据和应用数据。训练数据是NLU系统用户可能使用的语言示例,而应用数据则是系统用于回答用户问题的信息。
1.1 训练数据
自然语言应用大多基于预期处理的输入示例进行训练。充足的训练数据对于自然语言应用的成功至关重要。若训练数据不足,应用部署后可能会出现无法处理的输入,因为系统在开发阶段未接触过类似输入。不过,系统并不需要在训练时看到所有可能的输入,尤其是对于长而复杂的文档,如产品评论。
训练过程旨在让语义相似的文档得到相同的分析,即使具体的词汇和表述不同。机器学习算法通常需要大量数据,要区分的类别或意图越多,所需的数据就越多。大多数实际应用需要数千个训练示例。
训练数据除了示例外,通常还需要包含正确答案,即标注。标注也被称为地面真值或黄金标准。例如,在判断产品评论是正面还是负面的应用中,人类评判者会为一组评论分配正面或负面标签,这些评论将用作训练和测试数据。
| 文本 | 标注 |
|---|---|
| 我对这款产品非常失望。它很脆弱,价格过高,而且油漆还剥落了。 | 负面 |
| 这款产品完全符合我的期望。它制作精良,外观很棒,价格也合适。我毫不犹豫地向任何人推荐它。 | 正面 |
超级会员免费看
订阅专栏 解锁全文
28万+

被折叠的 条评论
为什么被折叠?



