自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 期刊bibitem格式参考文献批量生成

IEEE Access期刊给出的LaTeX模板中要求参考文献使用\bibitem格式,不能将参考文献放在.bib文件中,而是使用\bibitem{}命令(花括号里写正式的引文)写在论文的.tex文件中。文献较多时手动添加显然不太实际,解决方法是通过bibtex实现批量处理。step 1:首先将所有文献的bibtex引用放在一个文件中,命名为references.bib。step 2:新建一个...

2019-01-03 15:08:26 18661 11

原创 PyTorch安装

step1: 卸载numpy首先要先卸载numpy,Torch过程中会自动安装numpy,不然会报ImportError: numpy.core.multiarray failed to import错误step2: 安装PyTorchPyTorch官网pip install https://download.pytorch.org/whl/cu80/torch-1.0.0-cp27-cp...

2018-12-27 19:12:26 415

转载 查看CUDA cudnn版本

查看cuda 版本cat /usr/local/cuda/version.txtcudnn 版本cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

2018-12-27 19:06:23 594

原创 METEOR指标评估自动文摘

在尝试对生成的摘要进行METEOR指标评估时遇到的两个问题记录如下:issue1:python中os.listdir( )函数读取文件夹下文件的乱序import os#获取目标文件夹的路径filedir = os.getcwd()+'/decoded'#获取当前文件夹中的文件名称列表filenames = os.listdir(filedir)filenames.sort(key =...

2018-12-17 20:32:31 2233

原创 自动文摘的METEOR评价指标

参考METEOR下载 详细文档$ java -Xmx2G -jar meteor-*.jar example/xray/system1.hyp example/xray/reference -norm -writeAlignments -f system1####exact match####java -Xmx2G -jar meteor-*.jar decoded reference -n...

2018-12-17 20:14:55 4010 1

原创 UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)

解决方法参考了以下几篇博文: 错误日志 错误解决方法

2018-08-15 16:01:31 3090

原创 takahe模块运行问题解决方法

takahe模块用于多句子压缩任务,是文章Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression的具体实现。 github地址如下:takahe安装依赖networkx graphviz pygraphviz 最后一个库没有装上,但好像没有影响测试python example.py...

2018-07-31 22:07:59 257

原创 论文阅读:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

问题: 现有的关键词抽取系统普遍存在的问题包括:1)complex and slow 2)over-generation (i.e. extracting redundant keyphrases)资源: 1. 代码 https://github.com/swisscom/ai-research-keyphrase-extraction相关工作: 1. Unsupervised...

2018-07-26 16:56:16 3142

原创 论文阅读:Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression

作者: Florian Boudin and Emmanuel Morin 来源: 2013 NAACL-HLT 概述: 这篇文章扩展了Filippova (2010)’s word graph-based MSC方法,添加了一个re-reranking步骤,使得包含最多相关关键词的compression被选择出来。 资源: 1. 代码:https://github.com/boudi...

2018-07-25 21:34:22 1469

原创 Linux命令之wc命令

Linux wc命令用于统计指定文件中的字节数、字数、行数,并将统计结果显示输出。wc是word count的缩写,即统计单词数。 命令语法:wc [OPTION]...[FILE]...命令参数:-c 统计字节数-l 统计行数-m 统计字符数。该参数不能与-c一起使用-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串-L 打印最长行的长度...

2018-07-18 16:03:59 5044

原创 Linux命令之head命令

命令格式:head [OPTION] [FILE]head命令默认打印文件开头10行 命令参数:-q 隐藏文件名-v 显示文件名-c<字节> 显示字节数-n<行数> 显示行数使用示例:显示文件的前一行显示文件前10个字节head -c 10 vectors.200.f.bin显示除了开头100个字符以外的内容he...

2018-07-18 15:56:01 2682

原创 中文分词工具包jieba安装时自定义tmp_dir

在服务器上个人目录下配置的python2.7环境下安装了jieba包,安装完成后为了进行测试,运行了下列程序:import jiebaimport jieba.analysefrom optparse import OptionParserfile_name = "/home/shirveon/keyword_extractor/7chinese.txt"content = open(...

2018-07-11 21:47:31 3334

原创 Python中site-packages和dist-packages区别

sudo apt-get install安装的package存放在/usr/lib/python2.7/dist-packages目录中 pip(对应系统安装的python)或者easy_install(对应系统安装的python)安装的package存放在/usr/local/lib/python2.7/dist-packages目录 手动从源代码安装(使用系统安装python)的packa...

2018-07-07 10:31:41 6105

原创 自然语言处理工具包spacy库安装

pip install -U spacypython -m spacy download en

2018-07-06 20:36:53 1578

转载 Python中的enumerate()

介绍 enumerate()是python的内置函数。对于一个可迭代的(iterable)/可遍历的对象(如列表、字符串),enumerate()将其组成一个索引序列,利用它可以同时获得索引和值。这个函数多用于在for循环中得到计数。my_list = ['apple','banana','grapes','pear']for c, value in enumerate(my_list...

2018-06-12 16:04:53 231

原创 关于embedding

关于embedding的shape之前读pointer-generator代码的时候一直对tensor的shape概念感到比较混沌,今天再读有了新的收获。with tf.variable_scope('embedding'): embedding = tf.get_variable('embedding', [vsize, hps.emb_dim], dtype = tf.fl...

2018-06-07 10:28:39 724

原创 Python中的namedtuple

Python中命名元组namedtuple与C/C++语言中的结构体类似。collection模块中的namedtuple子类不仅可以使用item的index访问item,还可以通过item的name进行访问。

2018-06-06 10:25:56 181

原创 Python中的random模块

Python中的random模块用于生成随机数。下面记录最近读代码用到的几个函数,(不断补充中)random.randint函数原型为random.randint(a,b),用于生成一个指定范围内的整数。其中参数a是下限,参数b是上限,生成的随机数n满足:a<=n<=b示例:>>>print random.randint(12,20) #生成12到20之间的数>...

2018-05-30 10:41:03 159

原创 Python排序函数sort()与sorted()区别

sort(cmp=None, key=None, reverse=False)是容器的函数。sorted(iterable, cmp=None, key=None, reverse=False)是Python的内建函数。这里,reverse=False为升序排序;reverse=True为降序排序。示例:>>>a=[1,2,5,3,9,4,6,8,7,0,12]>>&...

2018-05-30 10:15:16 378

转载 Tensorflow中dynamic_rnn和static_rnn区别

图片转自Denny Britz的博文RNNs in Tensorflow,a Practical Guide and Undocumented Features总的来说,优先使用dynamic_rnn,因为它的graph创建速度快,且可用于处理可变大小的batch。...

2018-05-29 17:22:33 942

转载 Python中copy和deepcopy的区别

copy()和deepcopy()是Python语言copy模块中的两个method,copy()其实是与deep copy相对的shallow copy。对于简单的object,用shallow copy和deep copy没区别。复杂的Object,如list中套着list的情况,shallow copy中的子list并未从原object真的独立出来,也就是说,如果你改变原object的子li...

2018-05-29 15:28:11 5725

原创 Python正则表达式

re模块使Python语言拥有全部的正则表达式功能。re.match函数尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.search扫描整个字符串并返回第一个成功的匹配。...

2018-05-28 15:31:10 120

原创 tf.all_varibles与tf.global_variables的比较

在运行pointer-generator代码时出现了如下报错:WARNING:tensorflow:From/home/shirveon/env/local/lib/python2.7/site-packages/tensorflow/python/util/tf_should_use.py:170: initialize_all_variables (from tensorflow.pytho...

2018-05-25 16:25:36 2432 1

原创 python标准库glob

该库用于查找符合特定规则的文件路径>>>import glob>>>glob.glob('./[0-9].*')['./1.gif', './2.txt']>>>glob.glob('*.gif')['1.gif','card.gif']>>>glob.glob('?.gif')['1.gif']...

2018-05-08 10:44:03 226

转载 Tensorflow的RNN和Attention实现过程

阅读thunlp的tensorflow-Summarization代码时遇到tf.contrib.seq2seq.BahdanauAttention函数,感到有点困惑,在网上找到一篇很棒的博文,对我理解函数细节有很大的帮助,网址如下:Tensorflow的RNN和Attention实现过程感谢原作者cairo!...

2018-04-23 20:52:32 4697

原创 论文笔记:Controlling Decoding for More Abstractive Summaries with Copy-Based Networks

来源:Arxiv, 2018关键词:PGNet; mixture coefficient; Decoding问题:现有生成式摘要系统(主要指PGNet)抽取性过高。模型:对解码过程进行控制,将生成模式和拷贝模式的混合系数(mixture coefficient)作为一个额外的优化目标。原得分函数:为了解决训练过程和解码过程中混合系数差别较大的问题,提出一个新的得分函数:m*是目标混合系数,后一个是...

2018-04-17 16:17:22 183

原创 论文笔记:Beam Search Strategies for Neural Machine Translation

作者:Markus Freitag and Yaser Al-Onaizan单位:IBM T.J. Watson Research Center关键词:Beam search; Pruning strategies问题:束搜索算法跟踪k个状态,而不仅仅只跟踪一个。它从k个随机生成的状态开始,在每一步中都生成所有k个状态的所有后继者。如果这其中的任何一个后继者是目标,那么算法就会停止。否则,它将从完...

2018-04-15 22:38:56 1976

原创 论文笔记:Diverse Beam Search for Increased Novelty in Abstractive Summarization

文章来源:Arxiv,2018作者:Cibils Andre, Musat Claudiu, Hossmann Andreea, Baeriswyl Michael关键词:Extractiveness; Diverse Beam Search;Sent2Vec; MMR问题:如何降低生成式摘要的抽取性?模型:PGNet生成摘要由于可以选择是否利用拷贝机制,使得实际生成的摘要中从原文抽取的部分过多。...

2018-04-13 17:11:11 1085

原创 Ubuntu下配置pyrouge

自动文本摘要现在主流的评价标准ROUGE得分的计算需要使用pyrouge这个包,安装过程遇到很多坑,经过大量的探索试错终于得出了顺利的安装方法。特此记录,一则做个备忘,二来如果能为后来者提供一点帮助也算是功德一件。首先要安装ROUGE,成功之后设置pyrouge path,然后安装好pyrouge包。安装ROUGE参考点击打开链接设置pyrouge path 假设之前安装的ROUGE-1.5.5在...

2018-04-09 16:24:49 755 1

统计学习方法

统计学习是计算机及其应用领域的一门重要的学科。本书系统介绍了统计学习的主要方法。

2017-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除