
深度学习
文章平均质量分 78
枫林扬
从事自然语言处理及机器学习研究工作,github:https://github.com/zhang2010hao,欢迎访问、star、交流
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pointer-generator network和Coverage mechanism机制详解
针对本文的翻译和解释有很多,具体的内容不在此处细说。我们这里主要讨论论文中的两个技术,分别是Pointer-generator network和Coverage mechanism。大多数博客对这两个技术进行了描述,但是为什么该技术可以解决论文中提出的问题,并没人进行过说明。我们详细的研究讨论了这两个技术,下面将进一步阐明。Pointer-generator network:如文中所述,该...原创 2019-11-13 14:55:06 · 1928 阅读 · 2 评论 -
Attention 机制 -- Transformer
Attention 机制 – Transformer推荐先看The Illustrated Transformer代码: The Annotated Transformer此外,代码十分推荐看 Bert-pytorch 里面的实现,代码比上述的要更加清晰,可以看完上述代码与 bert 之后再看。1. Scaled Dot-product Attention首先, Q 与 K 进...转载 2019-11-06 18:59:46 · 412 阅读 · 0 评论 -
Attention 机制 -- 基础篇
Attention 机制 – 基础篇Hard vs Soft [1]Attention首先分为两大类:Hard Attention 与 Soft Attention, 两者的区别在于 Hard Attention 关注一个很小的区域,而soft Attention 关注的相对要发散。 举个机器翻译方面的例子:我是小明 --> I am XiaoMing对于 Hard At...转载 2019-11-06 18:58:18 · 627 阅读 · 1 评论 -
正则化
正则化1. L1 正则化 - 稀疏正则化1-范数: 表示向量元素的绝对值之和。∣∣x∣∣=∑i=1N∣xi∣||x|| =\sum_{i=1}^N |x_i|∣∣x∣∣=i=1∑N∣xi∣正则化项:Ω(θ)=∣∣w∣∣1=∑i∣wi∣目标函数:J~(w;X,y)=α∣∣w∣∣1+J(w;X,y)梯度:∇wJ~(w;X,y)=αsign(w)+∇wJ(w;X,y)正则化项: \O...转载 2019-11-06 11:39:02 · 379 阅读 · 0 评论 -
Normalization
Normalizationtags: 深度学习0 . 归一化1. 归一化手段**Min-max 归一化:**当有新数据加入时, 可能导致max和min的变化, 需要重新定义。x∗=x−minmax−min x^* = \frac{x -min } {max - min} x∗=max−minx−min**Zero-mean 归一化:**均值为0,标准差为1的标准正态分布...转载 2019-11-06 11:13:36 · 410 阅读 · 0 评论 -
pytorch实现连续切片,类似于tf.strided_slice()
1.背景:一直使用torch进行开发,torch的友好为开发调试提供了很多方便,但是torch中有些函数没有内置,造成使用的时候必须自己实现,最近就遇到了一个连续切片的问题,问题可以想象我们往Bert中输入的是一个句子对,但是我们还需要第一个句子的表示,因此必须从句子对的表示中取出第一个或者第二个句子的表示,tensorflow中tf.strided_slice()函数有类似的功能,但是我在t...原创 2019-06-20 11:02:28 · 3464 阅读 · 0 评论 -
论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
一、译文:ABSTRACT自然语言是分层结构的:较小的单元(例如短语)嵌套在较大的单元(例如子句)中。当较大的组件结束时,嵌套在其中的所有较小的组件也必须结束。虽然标准的LSTM体系结构允许不同的神经元在不同的时间尺度上跟踪信息,但它并没有明确地偏向于对成分层次结构建模。本文提出通过对神经元进行排序来增加这种诱导偏差;一个主输入和遗忘门的向量确保当一个给定的神经元被更新时,按照顺序跟随它的...原创 2019-06-19 14:25:13 · 2266 阅读 · 1 评论 -
Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions
译文:Abstract问题具有多个候选项的机器阅读理解(MRC)要求机器阅读给定的文章,并从几个候选项中选择正确答案。在本文中,我们提出了一种新的方法,称为卷积空间注意(CSA)模型,它可以更好地处理带有多个候选项的MRC。该模型能够充分提取文章、问题和候选项之间的相互信息,形成丰富的表征。此外,为了合并各种注意结果,我们建议使用卷积运算来动态总结不同区域大小内的注意值。实验结果表明,所提...原创 2019-05-29 16:55:58 · 987 阅读 · 0 评论 -
指数移动平均(EMA)的原理及PyTorch实现
在深度学习中,经常会使用EMA(指数移动平均)这个方法对模型的参数做平均,以求提高测试指标并增加模型鲁棒。EMA的定义指数移动平均(Exponential Moving Average)也叫权重移动平均(Weighted Moving Average),是一种给予近期数据更高权重的平均方法。假设我们有n个数据:普通的平均数: EMA:,其中,表示前条的平均值 ()...转载 2019-06-12 20:04:39 · 26982 阅读 · 7 评论 -
论文:Extracting Relational Facts by an End-to-End Neural Model with Copy Mechanism
译文:Abstract句子中的关系事实往往是复杂的。不同的关系三元组在一个句子中可能有重叠。根据三元组重叠程度,我们将句子分为三种类型:普通、实体对重叠和单实体重叠。现有的方法主要集中在普通类上,不能准确提取关系三元组。在本文中,我们提出了一种基于复制机制的序列到序列学习的端到端模型,该模型可以从任意类的句子中联合提取关系事实。在解码过程中,我们采用了两种不同的解码策略:使用一个统一的解码...原创 2019-05-06 11:31:55 · 2869 阅读 · 3 评论 -
深度学习过拟合解决方案(pytorch相关方案实现)
描述最近做项目出现过拟合的情况,具体表现为,使用简单模型的时候需要迭代十几个epoch之后才能达到一个理想的结果,并且之后loss趋于稳定,f1也趋于稳定;后来使用复杂的模型后,两三个epoch后能达到更好的结果但是之后随着loss下降f1值反而下降了。这是一个比较明显的的过拟合现象。解决方案对于深度学习网络的过拟合,一般的解决方案有:1.Early stop在模型训练过程中,...原创 2019-04-16 19:52:27 · 9842 阅读 · 5 评论 -
深度学习新手易犯错误总结
1. 忘了数据规范化What?在使用神经网络的过程中,非常重要的一点是要考虑好怎样规范化(normalize)你的数据。这一步不能马虎,不正确、仔细完成规范化的话,你的网络将会不能正常工作。因为规范化数据这个重要的步骤在深度学习圈中早已被大家熟知,所以论文中很少提到,因此常会成为初学者的阻碍。How?大体上说,规范化是指从数据中减去平均值,然后再除以标准差的操作。通常这个操作对每个...转载 2019-04-11 10:10:20 · 672 阅读 · 0 评论 -
矩阵求导术
矩阵求导的技术,在统计学、控制论、机器学习等领域有广泛的应用。本文来做个科普,分作两篇,上篇讲标量对矩阵的求导术,下篇讲矩阵对矩阵的求导术。本文使用小写字母xxx表示标量,粗体小写字母x\boldsymbol{x}x表示(列)向量,大写字母XXX表示矩阵。首先来琢磨一下定义,标量fff对矩阵XXX的导数∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X}=\lef...转载 2019-03-26 20:24:56 · 488 阅读 · 0 评论 -
文本匹配模型-BiMPM
在上一篇博客中介绍了ESIM模型(https://blog.youkuaiyun.com/zhang2010hao/article/details/87913910),这里介绍一个新的文本匹配模型BiMPM,其在某些任务中的效果超过ESIM模型。论文链接:http://tongtianta.site/paper/1759现在去判断两个句子相似性的深度学校解决方案主要有两种,其一是Simaese net...原创 2019-02-27 09:27:17 · 7664 阅读 · 1 评论 -
短文本匹配模型-ESIM
论文来源:TACL 2017论文链接:http://tongtianta.site/paper/11096文本匹配是智能问答(社区问答)中的关键环节,用于判断两个句子的语义是否相似。机器智能问答FAQ中,输入新文本(语音转文本)后,和对话库内已有句子进行匹配,匹配完成后输出对应问题答案。而这里主要研究的就是两个句子如何计算它们之间语义相似度的问题。一、原理Enhanced LST...原创 2019-02-25 13:52:00 · 9828 阅读 · 14 评论