文本嵌入与循环神经网络:从GloVe到RNN的探索
1. GloVe模型的原理与应用
GloVe(Global Vectors for Word Representation)模型主要用于计算给定前一个单词时,下一个单词出现的概率。在对数双线性模型中,其计算方式涉及特定的术语和公式。
GloVe本质上是一个具有加权最小二乘目标的对数双线性模型,它通过最小化每个方程结果中产生的残差平方和来找到整体解决方案。单词同时出现的概率比能够编码一定的语义信息。
以“ice”(冰)和“steam”(蒸汽)为例,通过从约60亿个单词的语料库中获取的条件概率可以发现:“ice”与“solid”(固体)同时出现的频率高于与“gas”(气体)同时出现的频率;而“steam”与“solid”同时出现的频率低于与“gas”同时出现的频率。“steam”和“gas”与“water”(水)频繁共现,因为它们都是水的不同状态;而它们与“fashion”(时尚)同时出现的频率较低。
非区分性单词(如“water”和“fashion”)产生的噪声在概率比中会相互抵消。概率比大于1的值与“ice”的特定特征相关,小于1的值与“steam”的特定特征相关,这表明概率比与非现实的热力学概念相关。
GloVe的目标是创建能够表示单词的向量,使得这些向量的点积等于单词及其共现概率的对数。由于在对数尺度上,比率相当于两个元素对数的差值,因此元素概率对数的比率在向量空间中表现为两个单词之间的差异。利用这些比率可以方便地在向量中编码语义,进而用于计算差异和获取类比关系。
2. 运行GloVe的步骤
要运行GloVe,首先需要进行安装。在macOS系
超级会员免费看
订阅专栏 解锁全文
2252

被折叠的 条评论
为什么被折叠?



