8、自然语言处理中的建模与评估策略

自然语言处理中的建模与评估策略

1. 模型特征学习与局限性

模型能够从数据中“学习”特征,这些特征更贴合当前任务,通常能提升性能。然而,由于这些特征是通过模型参数学习得到的,模型会失去可解释性。以电子邮件垃圾邮件分类为例,很难解释深度学习模型是依据哪些单词或短语来判断一封邮件是否为垃圾邮件,而使用手工特征则较容易做到这一点。

2. 建模过程

2.1 从简单启发式方法开始

在构建模型的初始阶段,机器学习可能无法发挥主要作用,部分原因是数据不足,但人类构建的启发式方法能提供良好的开端。启发式方法可能已隐含或明确地存在于系统中,常见应用如下:
- 电子邮件垃圾邮件分类 :使用域名黑名单过滤来自特定域名的邮件,也可使用单词黑名单来判断邮件是否为垃圾邮件。
- 电子商务场景 :在收集数据构建基于协同过滤的大型系统之前,可根据购买数量对搜索结果进行排序,并推荐同一类别的产品。
- 信息提取系统 :使用正则表达式提取文本中的信息,如日期、电话号码等。对于更复杂的信息提取,可使用 Stanford NLP 的 TokensRegex 和 spaCy 的基于规则的匹配工具。

2.2 构建模型

随着系统的成熟,单纯添加启发式方法会使系统变得复杂且难以管理。此时,可将启发式方法与机器学习模型相结合,主要有以下两种方式:
- 为机器学习模型创建特征 :当有多个启发式方法,单个方法的行为是确定的,但组合行为的预测模糊时,可将这些启发式方法作为特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值