深入探索句子嵌入:从信息存储到有效向量生成
1. 嵌入中的信息存储
当我们对词嵌入进行平均时,平均形状得以保留。可以将词向量直观地看作一条弯曲线条,而非单纯的数字列表。曲线上的高低点对应着向量不同位置的高低值。
例如,从语料库中选取几个单词,像“terrible”和“boring”的曲线形状有一定相似性,“beautiful”和“wonderful”的曲线形状也有相似之处,但与其他单词不同。如果对这些曲线进行聚类,意思相近的单词会聚集在一起。而且,这些曲线的部分本身就具有实际意义。
对于负面词汇,从左起约 40% 的位置会出现先下降后上升的尖峰。不过,这个尖峰本身并没有神奇地代表“负面性”,如果重新训练网络,它可能会出现在其他位置。只是因为所有负面词汇都有这个尖峰,所以它才指示负面性。
在训练过程中,这些形状会被塑造,使得不同位置的不同曲线传达特定的意义。对句子中的单词曲线取平均值时,句子中最主要的意义得以保留,单个单词产生的噪音会被平均掉。
2. 神经网络如何使用嵌入
神经网络会检测与目标标签相关的曲线。我们可以将词嵌入看作具有独特属性(曲线)的弯曲线条,这些曲线在训练过程中逐渐形成,以实现目标任务。意思相近的单词通常会在曲线上有独特的弯曲,即权重中的高低模式组合。
神经网络处理嵌入的方式与早期处理路灯数据集类似,它会寻找隐藏层中各种起伏和曲线与目标标签之间的相关性。在训练过程中,神经网络会学习不同单词形状之间的独特特征,以便区分它们,并将相似的单词分组(赋予相似的起伏/曲线),从而做出准确的预测。
将词嵌入求和形成句子嵌入时,这种求和向量可用于某些分类任务。对句子中的词嵌入
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



