8、词汇获取：自然语言处理的关键领域

最新推荐文章于 2026-01-08 22:08:34 发布

原创最新推荐文章于 2026-01-08 22:08:34 发布 · 20 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#词汇获取 #自然语言处理 #次范畴化框架

统计NLP入门经典专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

词汇获取：自然语言处理的关键领域

1. 词汇获取概述

词汇获取旨在通过分析大型文本语料库中单词的出现模式，开发算法和统计技术，以填补现有机器可读词典中的空白。除了搭配之外，还有许多词汇获取问题，如选择偏好（例如，动词“eat”通常以食物作为直接宾语）、次范畴化框架（例如，“contribute”的接受者用“to”引导的介词短语表示）和语义分类（词典中未涵盖的新单词的语义类别是什么）。

自然语言的生产力使得机器可读词典无法完全涵盖单词的所有属性。我们不断创造新单词和旧单词的新用法，即使能编纂出涵盖当前语言的词典，也会在几个月内变得不完整，这就是词汇获取在统计自然语言处理中如此重要的原因。

词汇和词库的定义有助于我们理解词汇获取的范围。词库可以被看作是一种扩展的、计算机可读的词典，但传统词典是为人类用户编写的，缺乏定量信息。因此，统计自然语言处理中词汇获取的一个重要任务是用定量信息扩充传统词典。此外，词汇信息和非词汇信息之间没有明确的界限，例如介词短语附着的歧义问题可以通过查看动词和名词的词汇属性来解决。

2. 评估指标

在自然语言处理中，使用更严格的标准来评估系统性能是一个重要的发展。常用的评估指标包括精确率、召回率、F值、准确率和错误率等。

精确率是指所选项目中正确项目的比例，召回率是指目标项目中被选中的比例。在信息检索等应用中，精确率和召回率通常可以进行权衡，这种权衡可以用精确率 - 召回率曲线表示。为了综合评估性能，常使用F值，它是精确率和召回率的加权调和平均值。

准确率和错误率虽然直观，但在很多情况下不是很好的评估指标，因为在大多数问题中，非目标、未选择的项目数量巨大，会掩盖其他重要数字。而

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。