自然语言处理:从规则到神经网络的演进
自然语言处理(NLP)多年来一直以文本字符串及其概率为核心,尽管文本概率的概念存在广泛争议。获取文本概率需要研究数据的分布,如单词、短语或更大的文本模式。通过分布进行消歧体现了行为主义,与结构主义形成对比,这一对比引发了两派思想的争论。
1. NLP的发展阶段
NLP的发展可分为三个阶段:
- 基于规则的第一代 :早期NLP工作基于规则。例如,判断句子情感的规则可能是“如果积极形容词数量超过消极形容词数量,则句子具有积极情感”。这些规则由人类专家设计,虽能准确处理特定情况,但泛化能力差,且面对新语言形式时需更新规则。基于规则的方法属于“无监督”,即实现时未使用标注数据。
- 基于统计的第二代 :规则在捕捉语言现象的复杂性上存在不足,且多规则冲突时处理繁琐。同时,可处理的语言数据增多,机器学习带来新机遇。概率为从数据中提取规律提供了方法,出现了最大似然、最大熵和贝叶斯概率三种计算概率的方式。最大似然估计是NLP中解决歧义的主要范式,常使用“argmax”术语。例如,情感分析可表示为:
[s = argmax_s P(s|D)]
其中,(s)是情感标签,(D)是实例,(s )是分类器返回的情感值。监督学习在这一阶段很关键,通过有标签的数据集学习特定任务,特征由人类设计,但特征存在离散性和难以捕捉相似性的问题。
- 基于神经网络的第三代 :深度学习引入了连续空间,使相似语言单元更接近,能处理数据稀疏问题并学习相似向量。深度神经网络(DNN)融合了学习语言单元的意义表示和解决特定NLP任
超级会员免费看
订阅专栏 解锁全文
893

被折叠的 条评论
为什么被折叠?



