自然语言处理:选择方法与数据表示
在自然语言处理(NLP)领域,为实现一个成功的应用,需要考虑多个关键因素,包括选择合适的处理方法以及对数据进行有效的表示。下面将详细探讨这些方面。
1. 选择NLP方法
NLP有各种各样的技术可供选择,在启动一个NLP应用时,开发者面临众多决策,这些决策受多种因素影响,其中最重要的因素之一是应用类型以及系统为完成预期任务所需从数据中提取的信息。
1.1 使方法适配任务
NLP应用可分为交互式和非交互式应用。应用类型在选择应用于任务的技术时起着重要作用。另一种对应用进行分类的方式是根据从文档中提取所需信息所需的详细程度。在最粗略的分析级别(例如,将文档分为两个不同类别),技术可以不那么复杂,训练速度更快,计算强度也较低。相反,如果任务是训练一个需要从每个话语中提取多个实体和值的聊天机器人或语音助手,则分析需要更加敏感和精细。
1.2 从数据出发
NLP应用基于目标系统需要处理的数据集或示例集构建。为了构建成功的应用,拥有适量的数据至关重要。然而,不同类型的应用所需的数据量不同,而且不仅要保证数据量合适,还要保证数据类型正确。
- 多少数据足够 :如果一个任务中有数百或数千种不同的文档分类,那么系统需要每个类别的足够示例才能区分它们。如果某些类别的示例比其他类别多得多,就会出现数据集不平衡的情况。平衡类别的技术包括欠采样(丢弃较常见类别的一些项目)、过采样(复制较稀有类别的项目)和生成(通过规则生成较稀有类别的人工示例)。系统通常在拥有更多数据时表现更好,但数据还必须能代表系统在测试或部署时将遇到的数据。如果任务中添
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



