流程参考自https://github.com/nlpyang/PreSumm
处理过程全部在Linux服务器实现。
1、下载PreSumm代码
git clone https://github.com/nlpyang/PreSumm.git
需要安装依赖包
pyrouge=0.1.3
pytorch-transformers=1.2.0
1、下载原数据集
CNN/DailyMail:https://cs.nyu.edu/~kcho/DMQA/
2、将下载好的数据集解压到放到一个文件夹中(row_stories)
!tar zxvf cnn_stories.tgz -C raw_stories/
!tar zxvf dailymail_stories.tgz -C raw_stories/
需要注意,将所有的*.story文件放到当前文件夹下
移动命令可参考https://blog.youkuaiyun.com/tailonh/article/details/124301984
3、下载stanford parser
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
unzip stanford-corenlp-full-2017-06-09.zip
添加环境变量
export CLASSPATH=$CLASSPATH:/path/to/PreSumm/stanford-corenlp-full-2017-06-09/stanford-corenlp-3.8.0.jar:
4、Sentence Splitting and Tokenization
大约会产生57G的数据
python preprocess.py -mode tokenize -raw_path ../raw_stories -save_path ../merged_stories_tokenized
5、转换为Json格式
python preprocess.py -mode format_to_lines -raw_path ../merged_stories_tokenized -save_path ../json_data/cnndm -n_cpus 1 -use_bert_basic_tokenizer false -map_path ../urls

该博客介绍了如何在Linux环境中利用PreSumm代码库进行文本摘要任务。首先,通过git克隆代码并安装必要的依赖如pyrouge和pytorch-transformers。接着,下载CNN/DailyMail数据集并进行解压。然后,配置stanfordparser环境变量,执行SentenceSplitting和Tokenization,这一步会产生大量数据。最后,将处理后的数据转换为Json格式。整个流程详尽地展示了从原始数据到预处理数据的转换过程。
1522

被折叠的 条评论
为什么被折叠?



