
论文研读笔记
文章平均质量分 95
tyhj_sf
职业从事ML System研发和管理多年,业余从事AGI研究,跟进AI各流派新观点、学说,致力于实现类人通用智能系统。
展开
-
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212
本文的目的是介绍一种新的神经网络学习方法,并证明它在几个小问题上工作得足够好,值得进一步研究。正向算法用两个正向通道代替反向传播的前向和向后传递,一个用正(即真实)数据,另一个用网络本身可以产生的负数据。每一层都有自己的目标函数,即对正数据有较高的优度(goodness),对负数据有较低的优度。一层中激活的平方和可以用作优点,但还有许多其他的可能性,包括减去激活的平方和。原创 2024-03-16 21:42:50 · 2408 阅读 · 1 评论 -
【论文精读】Self-Attentive Assocative Memory,2020
这篇论文介绍了基于对象和对象关系的记忆模型,这对于设计类脑记忆模型有很大的启发作用。该论文一个有趣的idea就是用两个前馈神经网络分别表示对象与对象间关系,但是参数更新方法不是梯度下降而是赫布更新,后续可能是一个改进点。原创 2023-07-30 13:25:27 · 770 阅读 · 0 评论 -
近期关于Transformer结构有潜力的改进方法总结
标准Transformer在最新的实际大模型中并没有被采用了,而是使用其相关的改进版本,原因是标准Transformer的实现有比较显著的缺点:1. Attention的时间复杂度较高,为$O(n^2)$,导致输入token序列长度较无法设置得过大。2. 显存占用大,是因为Attention、多头、FFN导致的参数量大。以下总结了几个较受关注及个人认为比较有潜力的改进,帮助快速了解,同时推荐大家仔细研读原论文。原创 2023-05-21 16:40:41 · 5184 阅读 · 0 评论 -
【经典论文翻译与解析】Attention is all you need
该论文提出了一个新的、简单的网络架构,Transformer。它只基于单独的attention机制,完全避免使用循环和卷积。目前在各个任务上表明,模型在性能上更好,同时具有更高的并行性,且训练所需要的时间更少。Transformer已经基本实现了CV、NLP等方向模型大一统。因此应当仔细研读原文。翻译 2023-01-15 00:27:17 · 1504 阅读 · 0 评论 -
【Hinton论文翻译与理解】How to represent part-whole hierarchies in a neural network_202102
本论文没有实现代码,仅仅描述 一个想法 ,集多种优势到一个假想系统GLOM。 这些优势包括 transformer、神经场(neural field)、对比表示学习、知识蒸馏 、胶囊网络。GLOM 回答以下问题: 一个固定结构的神经网络怎么把图像解析成每个图像都有不同结构的部分-整体层次关系? 想法很简单,用id向量表示解析树的节点。 如果 GLOM 能运行,应用到视觉或语言, 它应该能显著地改善由 transformer类系统产生的表示的可解释性。翻译 2021-10-06 18:55:59 · 2004 阅读 · 0 评论