结构化表示学习:从神经科学与物理学中汲取灵感
1. 机器学习的艺术与挑战
机器学习的核心在于将归纳偏置(先验知识)与数据进行最优结合。随着数据量的增加,我们对先验信息的依赖可以减少,让数据主导学习过程。这正是大语言模型(LLMs)和基础模型所采用的“扩展”范式,它们拥有数万亿的参数,在数十万的GPU上利用整个互联网的数据进行训练,而常用的架构是Transformer,因其具有良好的扩展性。
然而,Transformer可能并非最终答案。我们开始思考是否存在基于对世界更好先验知识的架构,并且能扩展到互联网级别的模型。这些模型不仅能够从更少的数据中学习,还能展现出更优的扩展规律,理想情况下具有更陡峭的斜率。
2. 值得纳入深度架构的先验知识
我们从神经科学和物理学中获得了灵感,探索可纳入深度架构的先验知识:
- 神经科学的启示 :神经科学从一开始就是机器学习的伙伴,早期的架构如Rosenblatt的感知机就受到生物神经元的启发。尽管近年来这两个领域分道扬镳,但鉴于人工神经网络和生物神经网络在能源效率上的巨大差距,重新从神经科学中寻找灵感是有意义的。
- 振荡器和行波的应用 :我们探索将振荡器和行波作为一种新的计算范式,而非静态表示。行波有潜力在空间和时间上收集和组合远距离的信息。
- 世界变化的缓慢性 :在我们所理解的宏观世界(物体层面),事物通常变化不会非常快。因此,在深度模型的抽象(深层)表示中强制体现这种缓慢性是合理的。
- 物理世界的对称性 :由于我们的模型常常模
结构化表示学习:神经科学与物理学的启示
超级会员免费看
订阅专栏 解锁全文
1191

被折叠的 条评论
为什么被折叠?



