
论文笔记
文章平均质量分 59
This_is_alva
这个作者很懒,什么都没留下…
展开
-
Learning to learn by gradient descent by gradient descent 笔记
转载地址:https://zhuanlan.zhihu.com/p/21362413什么意思呢?就是用梯度下降的方法学会了梯度下降的学习方法。用一个神经网络来调控另一个神经网络!怎么做?如上图,一个是神经网络优化器,一个是被优化的神经网络,也就是我们平时都用的神经网络。这里我们把数据输入到被优化的神经网络中,然后输出误差,把误差信号传给神经网络优化器,这个优化器就自己计算输出参转载 2017-11-16 15:33:49 · 2544 阅读 · 0 评论 -
(2017ICML Bestpaper)Understanding Black-box Predictions via Influence Functions 笔记
我们先讨论了模型是如何做出预测的。我们知道模型是通过训练数据得到的,我们将其写成公式,然后就知道改变训练数据以后模型会如何变化,而且我们还能通过它偏离训练数据的程度更好地理解模型的预测结果。影响函数为这些事情提供了一种高效的手段。如何解释黑箱模型的预测呢?这篇论文利用影响函数(稳健统计学中的经典技术),通过学习算法跟踪模型的预测并追溯到训练数据,从而确定对给定预测影响最大训练点。为了将影响函数扩展到现代机器学习中,论文中设计了一个简单,高效的实现,仅需梯度oracle访问和Hessian矢量积。而且即使在转载 2017-11-16 16:24:33 · 1915 阅读 · 0 评论 -
(2017 ICML)Learning to learn without gradient descent by gradient descent笔记
无需梯度下降的梯度下降,学会一个会学习的模型论文作者:Yutian Chen, Matthew Hoffman, Sergio Gomez, Misha Denil, Timothy Lillicrap, Matthew Botvinick , Nando de Freitas(全部都是 DeepMind 英国团队成员)论文简介:借助梯度下降的方法,可以用简单的生成函数训练转载 2017-11-16 16:28:33 · 1283 阅读 · 0 评论 -
[论文笔记] Learning to Read Chest X-Rays Recurrent Neural Cascade Model for Automated Image Annotation
2016 CVPR可借鉴部分:处理uneven分类问题:1. Batch-normalization2. data-dropout 去掉一部分无病样本的数据这片文章主要还是讲如何对chest X-ray 自动标注,使用 CNN训练出来的特征初始化RNN,描述疾病信息以下内容为转载总结这是篇文章属于“老方法+新问题”,其实也不算新问题,只不过用在医学图像里很少,我对医学图像处理并不太原创 2018-01-24 15:40:15 · 491 阅读 · 0 评论 -
Understanding Deep Learning required Rethinking Generalization 笔记
以下是他们论文中的一部分发现:1.神经网络的有效容量是足够大的,甚至足够使用暴力记忆的方式记录整个数据集。2.即便使用随机标签,进行优化仍然是很容易的。实际上,与使用真实标签进行训练相比,随机标签的训练时间仅仅增长了一个小的常数因子。3.标签随机化仅仅是一种数据转换,学习问题的其他性质仍保持不变。那个令人震惊的真相显现出来了。深度学习网络仅仅是大规模的关联记忆存储。深度学习网络即使转载 2017-11-16 17:36:15 · 386 阅读 · 0 评论 -
(2017 ICLR)OPTIMIZATION AS A MODEL FOR FEW-SHOT LEARNING笔记
论文训练了一个长短期记忆网络(LSTM)你可以训练一个神经网络,让它学会如何学习(即元学习)。具体来说,已经有一些研究团队训练出了能够执行随机梯度下降(SGD)的神经网络。不仅这些研究团队可以证明他们的神经网络能够学习SGD,而且这种网络的效果比任何人工调试的方法都要好。与《Deep Reinforcement Learning for Accelerating the Converg转载 2017-11-16 17:42:33 · 2696 阅读 · 0 评论 -
A Powerful Generative Model Using Random Weights for the Deep Image Representation笔记
论文确认了这些网络的局部极小值是不同的:实验表明,不同的最优化方法会找到不同的极小值,即使在训练过程中非常靠后的阶段,从一种方法切换至另一种方法,也同样如此。此外,我们发现,不同最优化方法找到的极小值具有不同的形状,但这些极小值在最重要的度量——泛化精度上是相似的。这表明,你对学习算法的选择“操纵”着算法如何得出最终结果。随机性是无所不在的,无论你如何规范自己的网络或者使用何种SGD变种算转载 2017-11-16 17:46:49 · 387 阅读 · 0 评论