Word2Vec 学习动力学:从特征提取到矩阵分解的洞见

#「鸿蒙心迹」“2025・领航者闯关记“主题征文活动#

Word2Vec 学习动力学:从特征提取到矩阵分解的洞见

在表征学习领域,一个核心问题是:模型在训练中究竟学到了什么,以及它是如何逐步习得这些知识的?Word2Vec 作为当代大型语言模型(LLM)的先驱,尽管已广为应用,但长期以来缺乏精确预测其学习轨迹的理论框架。最近的研究揭示,在特定初始化条件下,Word2Vec 的优化过程可简化为一个无权重最小二乘矩阵分解问题,这为理解其内部机制提供了新视角。

学习轨迹:离散的认知跃迁

研究显示,当 Word2Vec 从接近零的随机小初始化启动时,其学习并非连续渐进,而是通过一系列离散的、顺序性的跃迁来积累知识。

  • 秩阶跃式增长:在优化迭代中,权重矩阵的秩以台阶状递增,每一跃升都伴随损失函数的急剧下降。
  • 子空间渐进展开:在嵌入空间中,向量在每个跃迁阶段扩展至一个新的正交子空间。这表明模型在特定阶段集体捕捉到一个“概念”或模式。

这一动态类似于人类认知发展:初始时概念模糊,随着暴露增多,关键元素逐步分离并固化。在模型中,一旦一个子空间被习得,它将保持稳定,不再旋转——这些子空间本质上是模型从语料中提炼的独立特征。

关键洞见:线性表征假设的验证

Word2Vec 的嵌入向量展现出强烈的线性几何结构,即嵌入空间中的线性子空间编码了如性别、时态或语义关系等可解释属性。这直接支持了线性表征假设,该假设已在 LLM 的语义探查和干预技术中备受重视。通过这种结构,模型能实现向量运算类比,例如“国王 - 男人 + 女人 ≈ 女王”。

理论框架:封闭解下的特征推导

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值