文本张量的表示方法
将一段文本使用张量进行表示,其中一般将词汇表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示。作用:方便输入到计算机中
举个例子:
["人生”,“该”,"如何",“起头"]
==>
#每个词对应矩阵中的一个向量
[[1.32,4,32,8,32,5.2],
[3.1,5.43,8.34,3.2],
[3.21,5.32,2,4.32],
[2.54,7.32,5.12,9.54]]
如果不理解文本张量的意思,可以参考如下(先理解数值化,就是对词进行编号,再理解张量化,就是使用多维来表示这个词,对比一个人的成绩,可以使用五个学科成绩,即五维表示)
1 one-hot词向量表示
又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数
举个例子:
["改变”,“要",“如何",“起手”]
==>
[[1,0,0,0],
[0,1,0,0],
[0,0,1,0],
[0,0,0,1]]
1.1 实操演示
代码实操