
NLP
FK103
这个作者很懒,什么都没留下…
展开
-
自然语言处理神经网络模型入门
主要内容input encoding for natural language tasksfeed-forward networksconvolutional networks,recurrent networksrecursive networksthe computation graph abstraction for automatic gradient computation...原创 2018-09-28 00:21:21 · 2195 阅读 · 0 评论 -
WMT的英德翻译
The University of Cambridge’s Machine Translation Systems for WMT181. basic methodCombine the three most commonly used architectures: recurrent, convolutional, and self-attention-based models like t...原创 2019-02-12 11:56:48 · 900 阅读 · 0 评论 -
× epoch、batch、training step(iteration)的区别
一次epoch=所有训练数据forward+backward后更新参数的过程。一次iteration=[batch size]个训练数据forward+backward后更新参数过程。另:一般是iteration译成“迭代”(1)iteration:表示1次迭代(也叫training step),每次迭代更新1次网络结构的参数;(2)batch-size:1次迭代所使用的样本量;(3)e...转载 2019-01-14 19:56:54 · 2035 阅读 · 0 评论 -
NLP训练所用到的一些方法
Xavier初始化方法: https://blog.youkuaiyun.com/shuzfan/article/details/51338178转载 2019-01-19 10:13:52 · 578 阅读 · 0 评论 -
torch学习
torch.arangetorch.arange(start, end, step=1, out=None) → Tensor返回一个1维张量,长度为 floor((end−start)/step)。包含从start到end,以step为步长的一组序列值(默认步长为1)。参数:start (float) – 序列的起始点end (float) – 序列的终止点step (floa...转载 2018-12-11 21:31:03 · 798 阅读 · 0 评论 -
NEURAL MACHINE TRANSLATION
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATEABSTRACT1 INTRODUCTIONABSTRACT神经机器翻译是最近提出的机器翻译方法。与传统的统计机器翻译不同,神经机器翻译旨在构建单个神经网络,通过联合调整以最大化翻译性能。最近提出的用于神经机器翻译的模型通常属于一系列编码 - 解码器,并将源...原创 2018-11-19 16:02:55 · 1087 阅读 · 0 评论 -
Tensorboard的简单使用
转自知乎灰灰import tensorflow as tf#定义一个计算图,实现两个向量的减法操作#定义两个输入,a为常量,b为变量a=tf.constant([10.0, 20.0, 40.0], name='a')b=tf.Variable(tf.random_uniform([3]), name='b')output=tf.add_n([a,b], name='add'...转载 2018-11-21 01:09:05 · 269 阅读 · 0 评论 -
Sequence to Sequence Learning with Neural Networks
用神经网络进行序列到序列的学习摘要1.介绍摘要深度神经网络(DNN)是功能强大的模型,在复杂的学习任务中取得了优异的性能。虽然DNN在大型标记训练集可用时效果很好,但它们不能用于将序列映射到序列。在本文中,我们提出了一种通用的端到端序列学习方法,它对序列结构做出了最小的假设。我们的方法是使用多层长短期记忆(LSTM)将输入序列映射到固定维度的向量,然后使用另一个深度LSTM来解码来自向量的目标...原创 2018-11-03 16:25:19 · 869 阅读 · 0 评论 -
关于NLP
转自博主 http://licstar.net/archives/3281.词向量One-hot Representation:每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。例如:“话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …]“麦克”表示为 [0 0 0 0 0 ...转载 2018-10-15 18:39:35 · 392 阅读 · 0 评论 -
神经概率语言模型
摘要统计语言建模的目标是学习语言中单词序列的联合概率函数。由于 the curse of dimensionality,这本质上是困难的:测试模型的单词序列可能与训练期间看到的所有单词序列不同。一种基于n-gram的传统的但非常成功的方法是,通过连接训练集中看到的非常短的重叠序列来获得泛化。我们建议通过学习词的分布式表示来对抗 the curse of dimensionality,这允许每个...原创 2018-10-13 13:09:00 · 3568 阅读 · 0 评论 -
XenC数据选择工具的使用
XenC数据选择工具系统要求:gcc version 4.5.1 or higherCMake 2.8.4 or higherboost version 1.57.0 or highergzip编译安装解压XenC-master.zip文件进入目录,执行cmake ./执行make成功后会在当前目录下生成XenC的可执行文件,可将其加到环境变量中使用需要文件:...原创 2019-05-29 09:23:50 · 1018 阅读 · 1 评论