自然语言处理-词向量与相关应用

本文介绍自然语言处理(NLP)的基础概念和技术,包括词编码方法从N-gram到sense2vec的发展历程。涵盖了NLP常见任务如自动摘要、指代消解和机器翻译等,并探讨了传统基于规则的方法与现代基于统计机器学习的不同处理方式。此外,还深入讨论了词权重计算方法TF-IDF及分布式表示的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

计算机处理图像和文字的实质是在向量矩阵等基础上将其转化为数字,然后计算搜索的内容和库内容信息的匹配度

文字--->数值向量

算法案例:

词编码:N-gram 

权重:TF-IDF ---->word2vec---->sense2vec

-----------------------------------------------------------------------------------------------------

NLP常见任务

自动摘要(百度,google)

指代消解 (代词理解指代是什么)          

机器翻译 (应用面很广, 但目前还不完善)

词性标注 

分词(中文,英文,日文)

主题识别 

文本分类

.............

-----------------------------------------------------------------------------------------------------

NLP处理方法:

传统:基于规则

现代:基于统计机器学习

        HMM CRF SVM LDA  CNN......

        "规则"隐含在模型参数里

-----------------------------------------------------------------------------------------------------



-----------------------------------------------------------------------------------------------------

数据决定结果上限

算法将以多大程度接近结果上限


词权重:(词在文档中的顺序没有被考虑)

TF-IDF  信息检索

Binary weighting 短文本相似性


离散表示缺点:

    词表维度随着语料库增长膨胀

    n-gram词序列随语料库膨胀更快

    数据稀疏问题

    无法衡量词向量之间的关系


分布式表示:

    用一个词附近的其他词来表示该词

    --》被称为现代统计自然语言处理中最有创见的想法之一

共现矩阵:

    主要发现主题,用于主题模型,如LSA

    局域窗中的word-word共现矩阵可以挖掘语法和语义信息


共现矩阵存的问题:

    向量维度随着词典大小线性增长

    存储整个词典的空间消耗非常大

    一些模型如文本分类模型会面临稀疏性问题

    模型会欠稳定


构造低维稠密向量作为词的分布式表示(25维~1000维)!

SVD降维


-----------------------------------------------------------------------------------------------------


-----------------------------------------------------------------------------------------------------


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值