词嵌入与句子嵌入:原理、局限与改进方法
信息在词嵌入中的存储方式
词嵌入是自然语言处理中的重要概念,那么信息是如何存储在这些词嵌入中的呢?当我们对词嵌入进行平均时,平均形状会保留下来。我们可以将词向量直观地看作一条弯弯曲曲的线,而不是一组数字列表。线上的高低点对应着向量不同位置的高低值。
从语料库中选取几个词,它们对应的曲线形状各有特点。例如,“terrible”和“boring”的曲线形状有一定相似性,“beautiful”和“wonderful”的曲线形状也有相似之处,但与前两者不同。如果对这些曲线进行聚类,意思相近的词会聚集在一起。而且,这些曲线的某些部分本身就具有真实的含义。
以负面词汇为例,从左起约40%的位置会有一个先向下再向上的尖峰。如果继续绘制对应其他词的曲线,这个尖峰仍会很明显。不过,这个尖峰本身并没有神奇之处代表“负面性”,如果重新训练网络,它可能会出现在其他位置。只是因为所有负面词汇都有这个尖峰,所以它才指示负面性。
在训练过程中,这些形状会被塑造,使得不同位置的不同曲线传达出特定的含义。当对句子中的词嵌入取平均曲线时,句子最主要的含义会保留下来,而任何特定词产生的噪声会被平均掉。
神经网络如何使用词嵌入
神经网络会检测与目标标签相关的曲线。我们已经了解到可以将词嵌入看作具有独特属性(曲线)的弯曲线条,并且这些曲线是在训练过程中逐渐形成以实现目标任务的。意思相近的词通常会在曲线中共享一个独特的弯曲,即权重中的高低模式组合。
神经网络处理词嵌入的方式与处理早期章节中的路灯数据集类似,它会寻找隐藏层中各种起伏和曲线与试图预测的目标标签之间的相关性。这就是为什么在某一方面相似的词会
超级会员免费看
订阅专栏 解锁全文
2332

被折叠的 条评论
为什么被折叠?



