轻松入门自然语言处理系列 07 文本表示

原创已于 2022-06-06 09:14:37 修改 · 785 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #NLP #文本表示

于 2022-05-06 22:14:11 首次发布

轻松入门自然语言处理系列专栏收录该内容

26 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文深入介绍了自然语言处理中的文本表示，包括单词和句子的表示方法，如独热编码、词向量，以及文本相似度计算如欧氏距离和余弦相似度。此外，还探讨了词向量的基础，强调词向量在表示单词语义和计算相似度中的重要性。

文章目录

前言
一、文本表示基础
二、文本相似度
- 1.欧氏距离
- 2.余弦相似度
三、词向量基础
总结

前言

本文主要介绍了NLP的基础任务文本表示，主要包含文本表示基础、文本相似度和词向量基础。

一、文本表示基础

对于自然语言处理各类应用，最基础的任务是文本表示。因为一个文本是不能直接作为模型的输入的，所以必须要先把文本转换成向量的形式之后，再导入到模型中训练。所谓的文本表示，其实就是研究如何把文本表示成向量或者矩阵的形式。

1.单词的表示

任何机器学习模型的输入一定是向量或矩阵的形式，所以在进行文本分析时，就需要用向量化的方式来表示单词或句子。文本的最小单元为单词，其次为短语、句子或者段落，要懂得如何将它们表示成向量的形式。其中，单词的表示法是最基础的。另外，对于句子或者更长的文本来说，它们的表示依赖于单词的表示法。

基于词典使用向量表示单词，如下：

在这里插入图片描述

这种方式是独热编码（One-hot encoding），每个单词对应的向量大小与词库大小保持一致。同时，单词的表示法不止一种，包括独热编码的表示法、词向量的表示法等。

词库中所包含的单词的先后顺序不会对后续的任务产生不一样的结果，即词库中的单词顺序是无关紧要的，虽然它会影响单词编码的顺序，但由于都是跟词库里的单词1对1对应的，并不会对结果产生影响。

<

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东哥说AI 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。