11、自然语言处理中的词性标注与组块分析

最新推荐文章于 2025-11-24 16:27:57 发布

redis7keeper

最新推荐文章于 2025-11-24 16:27:57 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP的过去、现在与未来文章标签：自然语言处理词性标注组块分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/redis7keeper/article/details/151096105

NLP的过去、现在与未来专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的词性标注与组块分析

1. 词性标注模型概述

在自然语言处理（NLP）的词性标注（POS tagging）任务中，有生成式模型和判别式模型之分。最大熵马尔可夫模型（MEMM）是一种判别式模型，它通过迭代缩放的方法来确定参数λ的值。具体做法是，先将λ初始化为随机值，然后逐步最小化合适的损失函数，从而得到所需的λ值。

概率表达式在特定公式（如式(3.9)）中的呈现方式，是在对模型做出最少假设的情况下推导得出的。换句话说，该表达式在满足一定约束条件下，最大化了给定词序列时标签序列的条件概率分布的熵。这里的约束条件是，模型对特征的期望等于数据的经验期望。

MEMM及其后续用于序列标注的条件随机场（CRF），都是直接优化条件概率P(T |W )的判别式模型，与优化联合概率P(T, W )的生成式模型不同。MEMM和CRF能够很好地利用语言现象在某一位置及其邻域的特征，而隐马尔可夫模型（HMM）在利用子词级信息（如单词的前缀和后缀）以及其他句法和语义属性方面则缺乏简单有效的方法。当训练数据较少、测试语料中存在未见过的单词，或者所处理的语言形态丰富时，判别式模型是更好的选择。

2. 神经网络词性标注

2.1 神经网络模型类型

在浅层解析的神经网络方法中，会考虑多种类型的神经网络模型：
- 前馈神经网络
- 循环神经网络（RNN）
- 长短期记忆网络（LSTM）
- 双向长短期记忆网络（Bi - LSTM）
- 变换器（Transformers）

2.2 基础考虑

神经网络的一项基本任务是分类。在词性标注中，对于词序列的每

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。