- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 期刊bibitem格式参考文献批量生成
IEEE Access期刊给出的LaTeX模板中要求参考文献使用\bibitem格式,不能将参考文献放在.bib文件中,而是使用\bibitem{}命令(花括号里写正式的引文)写在论文的.tex文件中。文献较多时手动添加显然不太实际,解决方法是通过bibtex实现批量处理。step 1:首先将所有文献的bibtex引用放在一个文件中,命名为references.bib。step 2:新建一个...
2019-01-03 15:08:26
18661
11
原创 PyTorch安装
step1: 卸载numpy首先要先卸载numpy,Torch过程中会自动安装numpy,不然会报ImportError: numpy.core.multiarray failed to import错误step2: 安装PyTorchPyTorch官网pip install https://download.pytorch.org/whl/cu80/torch-1.0.0-cp27-cp...
2018-12-27 19:12:26
415
转载 查看CUDA cudnn版本
查看cuda 版本cat /usr/local/cuda/version.txtcudnn 版本cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
2018-12-27 19:06:23
594
原创 METEOR指标评估自动文摘
在尝试对生成的摘要进行METEOR指标评估时遇到的两个问题记录如下:issue1:python中os.listdir( )函数读取文件夹下文件的乱序import os#获取目标文件夹的路径filedir = os.getcwd()+'/decoded'#获取当前文件夹中的文件名称列表filenames = os.listdir(filedir)filenames.sort(key =...
2018-12-17 20:32:31
2233
原创 自动文摘的METEOR评价指标
参考METEOR下载 详细文档$ java -Xmx2G -jar meteor-*.jar example/xray/system1.hyp example/xray/reference -norm -writeAlignments -f system1####exact match####java -Xmx2G -jar meteor-*.jar decoded reference -n...
2018-12-17 20:14:55
4010
1
原创 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)
解决方法参考了以下几篇博文: 错误日志 错误解决方法
2018-08-15 16:01:31
3090
原创 takahe模块运行问题解决方法
takahe模块用于多句子压缩任务,是文章Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression的具体实现。 github地址如下:takahe安装依赖networkx graphviz pygraphviz 最后一个库没有装上,但好像没有影响测试python example.py...
2018-07-31 22:07:59
257
原创 论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings
问题: 现有的关键词抽取系统普遍存在的问题包括:1)complex and slow 2)over-generation (i.e. extracting redundant keyphrases)资源: 1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction相关工作: 1. Unsupervised...
2018-07-26 16:56:16
3142
原创 论文阅读:Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression
作者: Florian Boudin and Emmanuel Morin 来源: 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)’s word graph-based MSC方法,添加了一个re-reranking步骤,使得包含最多相关关键词的compression被选择出来。 资源: 1. 代码:https://github.com/boudi...
2018-07-25 21:34:22
1469
原创 Linux命令之wc命令
Linux wc命令用于统计指定文件中的字节数、字数、行数,并将统计结果显示输出。wc是word count的缩写,即统计单词数。 命令语法:wc [OPTION]...[FILE]...命令参数:-c 统计字节数-l 统计行数-m 统计字符数。该参数不能与-c一起使用-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串-L 打印最长行的长度...
2018-07-18 16:03:59
5044
原创 Linux命令之head命令
命令格式:head [OPTION] [FILE]head命令默认打印文件开头10行 命令参数:-q 隐藏文件名-v 显示文件名-c<字节> 显示字节数-n<行数> 显示行数使用示例:显示文件的前一行显示文件前10个字节head -c 10 vectors.200.f.bin显示除了开头100个字符以外的内容he...
2018-07-18 15:56:01
2682
原创 中文分词工具包jieba安装时自定义tmp_dir
在服务器上个人目录下配置的python2.7环境下安装了jieba包,安装完成后为了进行测试,运行了下列程序:import jiebaimport jieba.analysefrom optparse import OptionParserfile_name = "/home/shirveon/keyword_extractor/7chinese.txt"content = open(...
2018-07-11 21:47:31
3334
原创 Python中site-packages和dist-packages区别
sudo apt-get install安装的package存放在/usr/lib/python2.7/dist-packages目录中 pip(对应系统安装的python)或者easy_install(对应系统安装的python)安装的package存放在/usr/local/lib/python2.7/dist-packages目录 手动从源代码安装(使用系统安装python)的packa...
2018-07-07 10:31:41
6105
转载 Python中的enumerate()
介绍 enumerate()是python的内置函数。对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate()将其组成一个索引序列,利用它可以同时获得索引和值。这个函数多用于在for循环中得到计数。my_list = ['apple','banana','grapes','pear']for c, value in enumerate(my_list...
2018-06-12 16:04:53
231
原创 关于embedding
关于embedding的shape之前读pointer-generator代码的时候一直对tensor的shape概念感到比较混沌,今天再读有了新的收获。with tf.variable_scope('embedding'): embedding = tf.get_variable('embedding', [vsize, hps.emb_dim], dtype = tf.fl...
2018-06-07 10:28:39
724
原创 Python中的namedtuple
Python中命名元组namedtuple与C/C++语言中的结构体类似。collection模块中的namedtuple子类不仅可以使用item的index访问item,还可以通过item的name进行访问。
2018-06-06 10:25:56
181
原创 Python中的random模块
Python中的random模块用于生成随机数。下面记录最近读代码用到的几个函数,(不断补充中)random.randint函数原型为random.randint(a,b),用于生成一个指定范围内的整数。其中参数a是下限,参数b是上限,生成的随机数n满足:a<=n<=b示例:>>>print random.randint(12,20) #生成12到20之间的数>...
2018-05-30 10:41:03
159
原创 Python排序函数sort()与sorted()区别
sort(cmp=None, key=None, reverse=False)是容器的函数。sorted(iterable, cmp=None, key=None, reverse=False)是Python的内建函数。这里,reverse=False为升序排序;reverse=True为降序排序。示例:>>>a=[1,2,5,3,9,4,6,8,7,0,12]>>&...
2018-05-30 10:15:16
378
转载 Tensorflow中dynamic_rnn和static_rnn区别
图片转自Denny Britz的博文RNNs in Tensorflow,a Practical Guide and Undocumented Features总的来说,优先使用dynamic_rnn,因为它的graph创建速度快,且可用于处理可变大小的batch。...
2018-05-29 17:22:33
942
转载 Python中copy和deepcopy的区别
copy()和deepcopy()是Python语言copy模块中的两个method,copy()其实是与deep copy相对的shallow copy。对于简单的object,用shallow copy和deep copy没区别。复杂的Object,如list中套着list的情况,shallow copy中的子list并未从原object真的独立出来,也就是说,如果你改变原object的子li...
2018-05-29 15:28:11
5725
原创 Python正则表达式
re模块使Python语言拥有全部的正则表达式功能。re.match函数尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.search扫描整个字符串并返回第一个成功的匹配。...
2018-05-28 15:31:10
120
原创 tf.all_varibles与tf.global_variables的比较
在运行pointer-generator代码时出现了如下报错:WARNING:tensorflow:From/home/shirveon/env/local/lib/python2.7/site-packages/tensorflow/python/util/tf_should_use.py:170: initialize_all_variables (from tensorflow.pytho...
2018-05-25 16:25:36
2432
1
原创 python标准库glob
该库用于查找符合特定规则的文件路径>>>import glob>>>glob.glob('./[0-9].*')['./1.gif', './2.txt']>>>glob.glob('*.gif')['1.gif','card.gif']>>>glob.glob('?.gif')['1.gif']...
2018-05-08 10:44:03
226
转载 Tensorflow的RNN和Attention实现过程
阅读thunlp的tensorflow-Summarization代码时遇到tf.contrib.seq2seq.BahdanauAttention函数,感到有点困惑,在网上找到一篇很棒的博文,对我理解函数细节有很大的帮助,网址如下:Tensorflow的RNN和Attention实现过程感谢原作者cairo!...
2018-04-23 20:52:32
4697
原创 论文笔记:Controlling Decoding for More Abstractive Summaries with Copy-Based Networks
来源:Arxiv, 2018关键词:PGNet; mixture coefficient; Decoding问题:现有生成式摘要系统(主要指PGNet)抽取性过高。模型:对解码过程进行控制,将生成模式和拷贝模式的混合系数(mixture coefficient)作为一个额外的优化目标。原得分函数:为了解决训练过程和解码过程中混合系数差别较大的问题,提出一个新的得分函数:m*是目标混合系数,后一个是...
2018-04-17 16:17:22
183
原创 论文笔记:Beam Search Strategies for Neural Machine Translation
作者:Markus Freitag and Yaser Al-Onaizan单位:IBM T.J. Watson Research Center关键词:Beam search; Pruning strategies问题:束搜索算法跟踪k个状态,而不仅仅只跟踪一个。它从k个随机生成的状态开始,在每一步中都生成所有k个状态的所有后继者。如果这其中的任何一个后继者是目标,那么算法就会停止。否则,它将从完...
2018-04-15 22:38:56
1976
原创 论文笔记:Diverse Beam Search for Increased Novelty in Abstractive Summarization
文章来源:Arxiv,2018作者:Cibils Andre, Musat Claudiu, Hossmann Andreea, Baeriswyl Michael关键词:Extractiveness; Diverse Beam Search;Sent2Vec; MMR问题:如何降低生成式摘要的抽取性?模型:PGNet生成摘要由于可以选择是否利用拷贝机制,使得实际生成的摘要中从原文抽取的部分过多。...
2018-04-13 17:11:11
1085
原创 Ubuntu下配置pyrouge
自动文本摘要现在主流的评价标准ROUGE得分的计算需要使用pyrouge这个包,安装过程遇到很多坑,经过大量的探索试错终于得出了顺利的安装方法。特此记录,一则做个备忘,二来如果能为后来者提供一点帮助也算是功德一件。首先要安装ROUGE,成功之后设置pyrouge path,然后安装好pyrouge包。安装ROUGE参考点击打开链接设置pyrouge path 假设之前安装的ROUGE-1.5.5在...
2018-04-09 16:24:49
755
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人