文章目录
前言
本文主要介绍了NLP的基础任务文本表示,主要包含文本表示基础、文本相似度和词向量基础。
一、文本表示基础
对于自然语言处理各类应用,最基础的任务是文本表示。因为一个文本是不能直接作为模型的输入的,所以必须要先把文本转换成向量的形式之后,再导入到模型中训练。所谓的文本表示,其实就是研究如何把文本表示成向量或者矩阵的形式。
1.单词的表示
任何机器学习模型的输入一定是向量或矩阵的形式,所以在进行文本分析时,就需要用向量化的方式来表示单词或句子。文本的最小单元为单词,其次为短语、句子或者段落,要懂得如何将它们表示成向量的形式。其中,单词的表示法是最基础的。另外,对于句子或者更长的文本来说,它们的表示依赖于单词的表示法。
基于词典使用向量表示单词,如下:

这种方式是独热编码(One-hot encoding),每个单词对应的向量大小与词库大小保持一致。同时,单词的表示法不止一种,包括独热编码的表示法、词向量的表示法等。
词库中所包含的单词的先后顺序不会对后续的任务产生不一样的结果,即词库中的单词顺序是无关紧要的,虽然它会影响单词编码的顺序,但由于都是跟词库里的单词1对1对应的,并不会对结果产生影响。
<
本文深入介绍了自然语言处理中的文本表示,包括单词和句子的表示方法,如独热编码、词向量,以及文本相似度计算如欧氏距离和余弦相似度。此外,还探讨了词向量的基础,强调词向量在表示单词语义和计算相似度中的重要性。
订阅专栏 解锁全文
1498

被折叠的 条评论
为什么被折叠?



