引言
One-Hot 独热编码,又称为一位有效编码,将互相独立的标签表示为互相独立的二进制数字,每个样本只对应于一个类别(即只在对应的特征处值为1,其余特征处值为0),保证了独立标签之间的距离相等,即互相独立的标签之间相似性相同。
1 表示方法
One-Hot 独热编码是表示词向量最早的的方法。首先创建一个词表,里面包括了所有可能用到的为文字,每个文字占据一个位置。那么词向量就是一个该词表维度大小的向量,文字所在位置取值1,其它位置取值0。
例如,对于一个大小为3的list:["我", "爱", "你"]进行one-hot编码,其对应的one-hot编码为:
我 爱 你 我 1 0 0 爱 0