深度学习之自然语言处理(单词分布式表示)

本文介绍了自然语言处理中的词汇处理技术,包括同义词词典(如WordNet)的局限性,以及基于计数方法(如语料库预处理、共现矩阵和向量表示)的改进,如点互信息(PMI)、降维(SVD)和更大规模数据集(PTB)。通过计算单词之间的相似度,如余弦相似度,来提高模型的实用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

自然语言处理(NLP)即让计算机理解人类日常语言

1.同义词词典

以人工方式进行定义意思相近的单词,有上位-下位,整体-部分关系。利用这些“单词网络”形式教会计算机单词之间的相关性,将单词含义间接教给计算机。

1.1WordNet

最著名同义词词典,一个基于人工定义的单词网络,使用单词网络可以计算单词之间的相似度,获得单词的近义词。

存在问题:难以顺应时代变化,词意会变;人工制作词典成本高;无法表示单词的微妙差异。

2.基于计数的方法

2.1 语料库预处理

语料库:大量文本数据

基于计数方法的目的:从这些富有实践知识的语料库中,自动且高效地提取本质

例子 1

结论:lower()方法将所有字母转化为小写,replace()方法将.换成空格.(方便后续的分隔操作),split()方法将空格作为分隔符切分句子。

对上述单词标上ID,以便使用单词ID列表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值