嵌入设计模式:高基数数据的低维表示解决方案
1. 高基数数据问题
在图像和文本数据中,高基数和数据依赖问题普遍存在。图像由数千个相互依赖的像素组成,而自然语言文本的词汇量通常有数万之多,并且词语之间存在语义上的关联,例如“walk”和“run”的语义比“walk”和“book”更接近。
2. 嵌入设计模式解决方案
嵌入设计模式通过一个具有可训练权重的嵌入层,将高基数数据密集地表示在低维空间中。具体来说,它将高维的分类输入变量映射到低维空间中的实值向量。这些用于创建密集表示的权重是在模型优化过程中学习得到的。
在实践中,嵌入能够捕捉输入数据中的紧密关系。因此,嵌入层可以替代聚类技术(如客户细分)和主成分分析(PCA)等降维方法。嵌入权重在主模型训练循环中确定,无需事先进行聚类或PCA。
以出生多胞胎数据集为例,展示了单热编码和学习编码的对比:
| 多胞胎情况 | 单热编码 | 学习编码 |
| — | — | — |
| Single(1) | [1,0,0,0,0,0] | [0.4, 0.6] |
| Multiple(2+) | [0,1,0,0,0,0] | [0.1, 0.5] |
| Twins(2) | [0,0,1,0,0,0] | [-0.1, 0.3] |
| Triplets(3) | [0,0,0,1,0,0] | [-0.2, 0.5] |
| Quadruplets(4) | [0,0,0,0,1,0] | [-0.4, 0.3] |
| Quintuplets(5) | [0,0,0,0,0,1] | [-0.6, 0.5] |
超级会员免费看
订阅专栏 解锁全文
655

被折叠的 条评论
为什么被折叠?



