轻松入门自然语言处理系列 07 文本表示

本文深入介绍了自然语言处理中的文本表示,包括单词和句子的表示方法,如独热编码、词向量,以及文本相似度计算如欧氏距离和余弦相似度。此外,还探讨了词向量的基础,强调词向量在表示单词语义和计算相似度中的重要性。

前言

本文主要介绍了NLP的基础任务文本表示,主要包含文本表示基础、文本相似度和词向量基础。

一、文本表示基础

对于自然语言处理各类应用,最基础的任务是文本表示。因为一个文本是不能直接作为模型的输入的,所以必须要先把文本转换成向量的形式之后,再导入到模型中训练。所谓的文本表示,其实就是研究如何把文本表示成向量或者矩阵的形式。

1.单词的表示

任何机器学习模型的输入一定是向量或矩阵的形式,所以在进行文本分析时,就需要用向量化的方式来表示单词或句子。文本的最小单元为单词,其次为短语、句子或者段落,要懂得如何将它们表示成向量的形式。其中,单词的表示法是最基础的。另外,对于句子或者更长的文本来说,它们的表示依赖于单词的表示法。

基于词典使用向量表示单词,如下:

在这里插入图片描述

这种方式是独热编码(One-hot encoding),每个单词对应的向量大小与词库大小保持一致。同时,单词的表示法不止一种,包括独热编码的表示法、词向量的表示法等。

词库中所包含的单词的先后顺序不会对后续的任务产生不一样的结果,即词库中的单词顺序是无关紧要的,虽然它会影响单词编码的顺序,但由于都是跟词库里的单词1对1对应的,并不会对结果产生影响。

<
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值