预处理CNN/DailyMail数据集

原创已于 2022-04-21 10:42:58 修改 · 4.6k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-04-20 22:01:14 首次发布

python编程同时被 2 个专栏收录

143 篇文章

订阅专栏

Linux

21 篇文章

订阅专栏

该博客介绍了如何在Linux环境中利用PreSumm代码库进行文本摘要任务。首先，通过git克隆代码并安装必要的依赖如pyrouge和pytorch-transformers。接着，下载CNN/DailyMail数据集并进行解压。然后，配置stanfordparser环境变量，执行SentenceSplitting和Tokenization，这一步会产生大量数据。最后，将处理后的数据转换为Json格式。整个流程详尽地展示了从原始数据到预处理数据的转换过程。

部署运行你感兴趣的模型镜像

流程参考自https://github.com/nlpyang/PreSumm
处理过程全部在Linux服务器实现。
1、下载PreSumm代码
git clone https://github.com/nlpyang/PreSumm.git
需要安装依赖包
pyrouge=0.1.3
pytorch-transformers=1.2.0

1、下载原数据集
CNN/DailyMail：https://cs.nyu.edu/~kcho/DMQA/

2、将下载好的数据集解压到放到一个文件夹中(row_stories)
!tar zxvf cnn_stories.tgz -C raw_stories/
!tar zxvf dailymail_stories.tgz -C raw_stories/
需要注意，将所有的*.story文件放到当前文件夹下
移动命令可参考https://blog.youkuaiyun.com/tailonh/article/details/124301984

3、下载stanford parser
wget http://nlp.stanford.edu/software/stanford-corenlp-full-2017-06-09.zip
unzip stanford-corenlp-full-2017-06-09.zip
添加环境变量
export CLASSPATH=$CLASSPATH:/path/to/PreSumm/stanford-corenlp-full-2017-06-09/stanford-corenlp-3.8.0.jar:

4、Sentence Splitting and Tokenization
大约会产生57G的数据

python preprocess.py -mode tokenize -raw_path ../raw_stories -save_path ../merged_stories_tokenized

5、转换为Json格式

python preprocess.py -mode format_to_lines -raw_path ../merged_stories_tokenized -save_path ../json_data/cnndm -n_cpus 1 -use_bert_basic_tokenizer false -map_path ../urls

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理

5 条评论

WS_Change 2024.02.01
请问作者，这个数据集只能在Linux上进行预处理吗？是否可以在本机上实现预处理？
- WS_Change回复想念@思恋 2024.03.12
  好的谢谢，已经预处理成功[face]emoji:015.png[/face]
- 想念@思恋回复WS_Change 2024.02.23
  可以在本地机器预处理，把环境配置好就行