Shirveon-优快云博客

原创期刊bibitem格式参考文献批量生成

IEEE Access期刊给出的LaTeX模板中要求参考文献使用\bibitem格式，不能将参考文献放在.bib文件中，而是使用\bibitem{}命令（花括号里写正式的引文）写在论文的.tex文件中。文献较多时手动添加显然不太实际，解决方法是通过bibtex实现批量处理。step 1：首先将所有文献的bibtex引用放在一个文件中，命名为references.bib。step 2：新建一个...

2019-01-03 15:08:26 19082 11

原创 PyTorch安装

step1: 卸载numpy首先要先卸载numpy，Torch过程中会自动安装numpy，不然会报ImportError: numpy.core.multiarray failed to import错误step2: 安装PyTorchPyTorch官网pip install https://download.pytorch.org/whl/cu80/torch-1.0.0-cp27-cp...

2018-12-27 19:12:26 480

转载查看CUDA cudnn版本

查看cuda 版本cat /usr/local/cuda/version.txtcudnn 版本cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

2018-12-27 19:06:23 627

原创 METEOR指标评估自动文摘

在尝试对生成的摘要进行METEOR指标评估时遇到的两个问题记录如下：issue1：python中os.listdir( )函数读取文件夹下文件的乱序import os#获取目标文件夹的路径filedir = os.getcwd()+'/decoded'#获取当前文件夹中的文件名称列表filenames = os.listdir(filedir)filenames.sort(key =...

2018-12-17 20:32:31 2307

原创自动文摘的METEOR评价指标

参考METEOR下载详细文档$ java -Xmx2G -jar meteor-*.jar example/xray/system1.hyp example/xray/reference -norm -writeAlignments -f system1####exact match####java -Xmx2G -jar meteor-*.jar decoded reference -n...

2018-12-17 20:14:55 4077 1

原创 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)

解决方法参考了以下几篇博文：错误日志错误解决方法

2018-08-15 16:01:31 3122

原创 takahe模块运行问题解决方法

takahe模块用于多句子压缩任务，是文章Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression的具体实现。 github地址如下：takahe安装依赖networkx graphviz pygraphviz 最后一个库没有装上，但好像没有影响测试python example.py...

2018-07-31 22:07:59 291

原创论文阅读：EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

问题：现有的关键词抽取系统普遍存在的问题包括：1）complex and slow 2）over-generation (i.e. extracting redundant keyphrases)资源： 1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction相关工作： 1. Unsupervised...

2018-07-26 16:56:16 3195

原创论文阅读：Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression

作者： Florian Boudin and Emmanuel Morin 来源： 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)’s word graph-based MSC方法，添加了一个re-reranking步骤，使得包含最多相关关键词的compression被选择出来。资源： 1. 代码：https://github.com/boudi...

2018-07-25 21:34:22 1513

原创 Linux命令之wc命令

Linux wc命令用于统计指定文件中的字节数、字数、行数，并将统计结果显示输出。wc是word count的缩写，即统计单词数。命令语法：wc [OPTION]...[FILE]...命令参数：-c 统计字节数-l 统计行数-m 统计字符数。该参数不能与-c一起使用-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串-L 打印最长行的长度...

2018-07-18 16:03:59 5155

原创 Linux命令之head命令

命令格式：head [OPTION] [FILE]head命令默认打印文件开头10行命令参数：-q 隐藏文件名-v 显示文件名-c<字节> 显示字节数-n<行数> 显示行数使用示例：显示文件的前一行显示文件前10个字节head -c 10 vectors.200.f.bin显示除了开头100个字符以外的内容he...

2018-07-18 15:56:01 2722

原创中文分词工具包jieba安装时自定义tmp_dir

在服务器上个人目录下配置的python2.7环境下安装了jieba包，安装完成后为了进行测试，运行了下列程序：import jiebaimport jieba.analysefrom optparse import OptionParserfile_name = "/home/shirveon/keyword_extractor/7chinese.txt"content = open(...

2018-07-11 21:47:31 3402

原创 Python中site-packages和dist-packages区别

sudo apt-get install安装的package存放在/usr/lib/python2.7/dist-packages目录中 pip（对应系统安装的python）或者easy_install（对应系统安装的python）安装的package存放在/usr/local/lib/python2.7/dist-packages目录手动从源代码安装（使用系统安装python）的packa...

2018-07-07 10:31:41 6214

原创自然语言处理工具包spacy库安装

pip install -U spacypython -m spacy download en

2018-07-06 20:36:53 1622

转载 Python中的enumerate()

介绍 enumerate()是python的内置函数。对于一个可迭代的（iterable）/可遍历的对象（如列表、字符串），enumerate()将其组成一个索引序列，利用它可以同时获得索引和值。这个函数多用于在for循环中得到计数。my_list = ['apple','banana','grapes','pear']for c, value in enumerate(my_list...

2018-06-12 16:04:53 269

原创关于embedding

关于embedding的shape之前读pointer-generator代码的时候一直对tensor的shape概念感到比较混沌，今天再读有了新的收获。with tf.variable_scope('embedding'): embedding = tf.get_variable('embedding', [vsize, hps.emb_dim], dtype = tf.fl...

2018-06-07 10:28:39 779

原创 Python中的namedtuple

Python中命名元组namedtuple与C/C++语言中的结构体类似。collection模块中的namedtuple子类不仅可以使用item的index访问item，还可以通过item的name进行访问。

2018-06-06 10:25:56 212

原创 Python中的random模块

Python中的random模块用于生成随机数。下面记录最近读代码用到的几个函数，（不断补充中）random.randint函数原型为random.randint(a,b)，用于生成一个指定范围内的整数。其中参数a是下限，参数b是上限，生成的随机数n满足：a<=n<=b示例：>>>print random.randint(12,20) #生成12到20之间的数>...

2018-05-30 10:41:03 185

原创 Python排序函数sort()与sorted()区别

sort(cmp=None, key=None, reverse=False)是容器的函数。sorted(iterable, cmp=None, key=None, reverse=False)是Python的内建函数。这里，reverse=False为升序排序；reverse=True为降序排序。示例：>>>a=[1,2,5,3,9,4,6,8,7,0,12]>>&...

2018-05-30 10:15:16 409

转载 Tensorflow中dynamic_rnn和static_rnn区别

图片转自Denny Britz的博文RNNs in Tensorflow,a Practical Guide and Undocumented Features总的来说，优先使用dynamic_rnn，因为它的graph创建速度快，且可用于处理可变大小的batch。...

2018-05-29 17:22:33 980

转载 Python中copy和deepcopy的区别

copy()和deepcopy()是Python语言copy模块中的两个method，copy()其实是与deep copy相对的shallow copy。对于简单的object，用shallow copy和deep copy没区别。复杂的Object，如list中套着list的情况，shallow copy中的子list并未从原object真的独立出来，也就是说，如果你改变原object的子li...

2018-05-29 15:28:11 5769

原创 Python正则表达式

re模块使Python语言拥有全部的正则表达式功能。re.match函数尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.search扫描整个字符串并返回第一个成功的匹配。...

2018-05-28 15:31:10 147

原创 tf.all_varibles与tf.global_variables的比较

在运行pointer-generator代码时出现了如下报错：WARNING:tensorflow:From/home/shirveon/env/local/lib/python2.7/site-packages/tensorflow/python/util/tf_should_use.py:170: initialize_all_variables (from tensorflow.pytho...

2018-05-25 16:25:36 2485 1

原创 python标准库glob

该库用于查找符合特定规则的文件路径>>>import glob>>>glob.glob('./[0-9].*')['./1.gif', './2.txt']>>>glob.glob('*.gif')['1.gif','card.gif']>>>glob.glob('?.gif')['1.gif']...

2018-05-08 10:44:03 255

转载 Tensorflow的RNN和Attention实现过程

阅读thunlp的tensorflow-Summarization代码时遇到tf.contrib.seq2seq.BahdanauAttention函数，感到有点困惑，在网上找到一篇很棒的博文，对我理解函数细节有很大的帮助，网址如下：Tensorflow的RNN和Attention实现过程感谢原作者cairo！...

2018-04-23 20:52:32 4730

原创论文笔记：Controlling Decoding for More Abstractive Summaries with Copy-Based Networks

来源：Arxiv, 2018关键词：PGNet; mixture coefficient; Decoding问题：现有生成式摘要系统（主要指PGNet）抽取性过高。模型：对解码过程进行控制，将生成模式和拷贝模式的混合系数（mixture coefficient）作为一个额外的优化目标。原得分函数：为了解决训练过程和解码过程中混合系数差别较大的问题，提出一个新的得分函数：m*是目标混合系数，后一个是...

2018-04-17 16:17:22 215

原创论文笔记：Beam Search Strategies for Neural Machine Translation

作者：Markus Freitag and Yaser Al-Onaizan单位：IBM T.J. Watson Research Center关键词：Beam search; Pruning strategies问题：束搜索算法跟踪k个状态，而不仅仅只跟踪一个。它从k个随机生成的状态开始，在每一步中都生成所有k个状态的所有后继者。如果这其中的任何一个后继者是目标，那么算法就会停止。否则，它将从完...

2018-04-15 22:38:56 2075

原创论文笔记：Diverse Beam Search for Increased Novelty in Abstractive Summarization

文章来源：Arxiv，2018作者：Cibils Andre, Musat Claudiu, Hossmann Andreea, Baeriswyl Michael关键词：Extractiveness; Diverse Beam Search;Sent2Vec; MMR问题：如何降低生成式摘要的抽取性？模型：PGNet生成摘要由于可以选择是否利用拷贝机制，使得实际生成的摘要中从原文抽取的部分过多。...

2018-04-13 17:11:11 1138

原创 Ubuntu下配置pyrouge

自动文本摘要现在主流的评价标准ROUGE得分的计算需要使用pyrouge这个包，安装过程遇到很多坑，经过大量的探索试错终于得出了顺利的安装方法。特此记录，一则做个备忘，二来如果能为后来者提供一点帮助也算是功德一件。首先要安装ROUGE，成功之后设置pyrouge path，然后安装好pyrouge包。安装ROUGE参考点击打开链接设置pyrouge path 假设之前安装的ROUGE-1.5.5在...

2018-04-09 16:24:49 798 1

u014435314的专栏