3、自然语言处理:从规则到神经网络的演进

自然语言处理:从规则到神经网络的演进

自然语言处理(NLP)多年来一直以文本字符串及其概率为核心,尽管文本概率的概念存在广泛争议。获取文本概率需要研究数据的分布,如单词、短语或更大的文本模式。通过分布进行消歧体现了行为主义,与结构主义形成对比,这一对比引发了两派思想的争论。

1. NLP的发展阶段

NLP的发展可分为三个阶段:
- 基于规则的第一代 :早期NLP工作基于规则。例如,判断句子情感的规则可能是“如果积极形容词数量超过消极形容词数量,则句子具有积极情感”。这些规则由人类专家设计,虽能准确处理特定情况,但泛化能力差,且面对新语言形式时需更新规则。基于规则的方法属于“无监督”,即实现时未使用标注数据。
- 基于统计的第二代 :规则在捕捉语言现象的复杂性上存在不足,且多规则冲突时处理繁琐。同时,可处理的语言数据增多,机器学习带来新机遇。概率为从数据中提取规律提供了方法,出现了最大似然、最大熵和贝叶斯概率三种计算概率的方式。最大似然估计是NLP中解决歧义的主要范式,常使用“argmax”术语。例如,情感分析可表示为:
[s = argmax_s P(s|D)]
其中,(s)是情感标签,(D)是实例,(s
)是分类器返回的情感值。监督学习在这一阶段很关键,通过有标签的数据集学习特定任务,特征由人类设计,但特征存在离散性和难以捕捉相似性的问题。
- 基于神经网络的第三代 :深度学习引入了连续空间,使相似语言单元更接近,能处理数据稀疏问题并学习相似向量。深度神经网络(DNN)融合了学习语言单元的意义表示和解决特定NLP任

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值