自然语言处理中的建模与评估策略
1. 模型特征学习与局限性
模型能够从数据中“学习”特征,这些特征更贴合当前任务,通常能提升性能。然而,由于这些特征是通过模型参数学习得到的,模型会失去可解释性。以电子邮件垃圾邮件分类为例,很难解释深度学习模型是依据哪些单词或短语来判断一封邮件是否为垃圾邮件,而使用手工特征则较容易做到这一点。
2. 建模过程
2.1 从简单启发式方法开始
在构建模型的初始阶段,机器学习可能无法发挥主要作用,部分原因是数据不足,但人类构建的启发式方法能提供良好的开端。启发式方法可能已隐含或明确地存在于系统中,常见应用如下:
- 电子邮件垃圾邮件分类 :使用域名黑名单过滤来自特定域名的邮件,也可使用单词黑名单来判断邮件是否为垃圾邮件。
- 电子商务场景 :在收集数据构建基于协同过滤的大型系统之前,可根据购买数量对搜索结果进行排序,并推荐同一类别的产品。
- 信息提取系统 :使用正则表达式提取文本中的信息,如日期、电话号码等。对于更复杂的信息提取,可使用 Stanford NLP 的 TokensRegex 和 spaCy 的基于规则的匹配工具。
2.2 构建模型
随着系统的成熟,单纯添加启发式方法会使系统变得复杂且难以管理。此时,可将启发式方法与机器学习模型相结合,主要有以下两种方式:
- 为机器学习模型创建特征 :当有多个启发式方法,单个方法的行为是确定的,但组合行为的预测模糊时,可将这些启发式方法作为特征
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



