Word2Vec 学习动力学:从特征提取到矩阵分解的洞见
在表征学习领域,一个核心问题是:模型在训练中究竟学到了什么,以及它是如何逐步习得这些知识的?Word2Vec 作为当代大型语言模型(LLM)的先驱,尽管已广为应用,但长期以来缺乏精确预测其学习轨迹的理论框架。最近的研究揭示,在特定初始化条件下,Word2Vec 的优化过程可简化为一个无权重最小二乘矩阵分解问题,这为理解其内部机制提供了新视角。
学习轨迹:离散的认知跃迁
研究显示,当 Word2Vec 从接近零的随机小初始化启动时,其学习并非连续渐进,而是通过一系列离散的、顺序性的跃迁来积累知识。
- 秩阶跃式增长:在优化迭代中,权重矩阵的秩以台阶状递增,每一跃升都伴随损失函数的急剧下降。
- 子空间渐进展开:在嵌入空间中,向量在每个跃迁阶段扩展至一个新的正交子空间。这表明模型在特定阶段集体捕捉到一个“概念”或模式。
这一动态类似于人类认知发展:初始时概念模糊,随着暴露增多,关键元素逐步分离并固化。在模型中,一旦一个子空间被习得,它将保持稳定,不再旋转——这些子空间本质上是模型从语料中提炼的独立特征。
关键洞见:线性表征假设的验证
Word2Vec 的嵌入向量展现出强烈的线性几何结构,即嵌入空间中的线性子空间编码了如性别、时态或语义关系等可解释属性。这直接支持了线性表征假设,该假设已在 LLM 的语义探查和干预技术中备受重视。通过这种结构,模型能实现向量运算类比,例如“国王 - 男人 + 女人 ≈ 女王”。
订阅专栏 解锁全文
816

被折叠的 条评论
为什么被折叠?



