
自然语言处理
文章平均质量分 58
昕晴
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
12.10 抽取式摘要论文阅读 HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for D
摘要我们提出了Hiebert(作为来自变压器的分层双向编码器表示的缩写),用于文档编码和使用未标记数据对其进行预训练的方法先预训练摘要模型的复杂的部分,(the hierarchical encoder),然后,我们学习从预先训练的编码器初始化我们的模型来对句子进行分类。无监督的模型ModelHibbert在培训过程中的架构。Senti是上述文件中的一句话,总共有4个句子。在编码期间掩...原创 2019-12-10 21:37:39 · 1494 阅读 · 3 评论 -
将bert中的字向量提取出来 并保存成npy文件
因为我们是要使用bert的词向量,希望可以简单如word2vec 一般,拿来就用 ,所以将 bert_model.ckpt中的保存的word_embedding提取出来,并进行保存。也是一个tensorflow 保存 提取 模型的方法首先 下载 bert中文预训练模型 chinese_L-12_H-768_A-12 这是一个768维的中文词向量 预训练模型...原创 2019-09-16 16:05:22 · 3340 阅读 · 3 评论 -
STAMP:Short-TermAttention/MemoryPriorityModelfor Session-basedRecommendation
基于会话的推荐的短期注意/记忆优先级模型摘要然而,现有的方法都没有明确考虑到用户当前操作对其下一步行动的影响。在本研究中,我们认为长期记忆模型可能不足以对长会话进行建模,而长会话通常包含由意外点击引起的用户兴趣漂移。提出了一种新的短期注意/记忆优先级模型,该模型能够从会话上下文的长期记忆中获取用户的一般兴趣,同时考虑到用户当前的兴趣来自于最后一次点击的短期记忆。在2015年RecSys挑战赛...原创 2019-05-13 16:46:46 · 3570 阅读 · 0 评论 -
推荐系统论文数据集预处理总结
PersonalizedTop-NSequentialRecommendationvia ConvolutionalSequenceEmbedding将每个用户的前百分之70的actions用做训练集,然后将下一个百分之10的actions用作验证集寻找最佳超参数。每个用户剩下的百分之20的actions用作测试集,以作测试集。...原创 2019-05-07 22:45:09 · 1844 阅读 · 1 评论 -
推荐系统 有关recall,precision.实验总结
recall为用户u推荐N个物品(记为R(u)),令用户在测试集上喜欢的物品的集合为T(u),然后计算召回率。召回率描述还有多少比例的用户-物品评分记录包含在最终的推荐列表中。所以T(u)是测试集的总长度。GRU4REC中,计算TOP 20的召回率时,每个session的target只有一个,所以T(u)的长度是1,意思为当取推荐的前20个数值时,(也就是softmax的结果取前20个概...原创 2019-04-14 11:53:02 · 8180 阅读 · 1 评论 -
torch.gather 使用 及 报错 positional argument follows keyword argument
会报错 positional argument follows keyword argument出现这种情况的可能性为 因为 dim使用了keyword dim,而在index的时候没有使用,就会报错,可以都不使用keyword,要么就都使用keyword常用场景,因为torch.gather()是一个根据索引来提取tensor中对应所以位置的函数...原创 2019-04-15 21:32:39 · 2320 阅读 · 0 评论 -
precision,recall 计算代码
之前写precision,recall的代码都是用了两层循环,今天看到一个比较优美的写法,用python 的set,以及交集intersection,所以Mark一下。这个文档将会Mark所有觉得不错的计算评测标准的代码precision Recalldef cal_precision_recall(targets,predictions,k):# targets是真实值,predic...原创 2019-03-27 16:40:56 · 5495 阅读 · 3 评论 -
SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documen
model主要贡献提出了一种基于递归神经网络RNN的抽取式摘要的序列模型可解释强-可视化‘对抽取模型进行抽象化的训练,该模型可以单独对人工生成的参考摘要进行训练,从而消除了句子级抽取’标签的需求。一种基于两层RNN的序列分类器:底层在每个句子中的word level上工作,而顶层运行在sentence level。双指向箭头表示双向RNN。 1和0的顶层是基于sigmoid的分...原创 2019-03-11 17:11:19 · 1225 阅读 · 0 评论 -
Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond
模型介绍Encoder-Decoder RNN with Attention and Large Vocabulary TrickEncoder:双向GRUDecoder: 单向GRU+attention+softmax层在目标词表中生成单词Trick:每一个epoch 得到decoder的词汇表仅限于该批次的源文档中的单词,目标词典中最常用的单词也会被添加,直到词汇表达到一个固定的大小...原创 2019-03-11 11:11:33 · 1227 阅读 · 2 评论 -
get to the point:summarization with pointer-generator networks
模型介绍baseline 方法存在两个大问题:1.无法解决unk问题2.有很多是重复的。baseline model 是 seq-seq +attention 模型encoder – 单层双向LSTM,产生了一个序列的隐藏状态hidecoder – 单层单向LSTM,训练时,输入是参考摘要的前一个词(使用教师机制) 测试时,使用decoder 的上个输出作为输入。decode...原创 2019-03-10 20:49:01 · 959 阅读 · 0 评论 -
文本摘要(一) textrank 论文 源码 使用
一、textrank 论文解读textrank 的思想是从谷歌的pagerank借鉴的。那我们先来讲一下PageRank的原理,PageRank就是认为 如果一个网页被很多网页链接的话,那就认为这个网页很重要。对于textrank 来讲那就是 如果一个单词出现在很多单词后面,那么说明这个单词很重要。textrank 是个基于图的算法,类似于熟悉的N-gram算法,在textrank中每一个...原创 2019-03-05 22:06:23 · 2386 阅读 · 1 评论 -
Python3 torchtext的安装(Windows and Linux)
尝试了很多次 其他博客的安装。。都以失败告终(我大概是一个安装包克星)尝试过的方法有源码安装 pip直接安装 conda直接安装最后成功的方法还是要借助anacondaconda install -c derickl torchtext顺便说一句,torchtext对python2 很友好,直接pip install torchtext...原创 2019-02-28 22:37:08 · 10898 阅读 · 14 评论 -
ROUGE
首先解释ROUGE(recall-oriented understanding for gisting evaluation)然后贴公式:这个公式是一个生成式摘要的评价标准。在主流的生成式摘要算法中,都使用这个公式作为测评标准。我们一般使用N=1,2,3,4,N这里面的N呢指的是N-gram N元词,我觉得可以理解为是几个词连在一起。这个rouge的介绍是 根据召回率进行改...原创 2019-02-28 22:33:19 · 10285 阅读 · 1 评论