《统计自然语言处理基础》笔记(3)词汇获取 之 简介

本文深入探讨自然语言处理中词汇获取的重要性及其相关问题,如补充词典不足、固定搭配识别等,并详细阐述词汇系统评价标准,包括精确率与召回率的计算与应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.词汇获取的目的是补充词典(这里指用于机器学习的词典)的不足之处,由于词汇含义不断在新增和变化,词典无法全面及时地覆盖所有含义和用法,因此词汇获取对基于统计的自然语言处理非重要。

之前介绍的固定搭配识别也是词汇获取的一种,除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义,选择倾向和语义相似性等(本书主要讲了这4种)。

 

2. 词汇系统的评价标准。最常用的两个指标是 精确率 和 召回率。

         精确率 = 返回的目标答案数/返回的所有答案数

         召回率 = 返回的目标答案数/所有的目标答案数

最典型的例子就是网页搜索,比如网上共有100个网页包含你想要的信息,搜索返回了70个网页(有可能来自这100个网页之外),而这其中又有10个网页不包含你想要的信息,那么

                                    精确率 = 60/70,召回率 = 60/100

这两个指标应该是衡量信息处理和检索系统性能的通用标准,不知道为什么专门放在第8章介绍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值