SciTLDR 项目使用教程

原创于 2024-09-26 08:37:13 发布 · 792 阅读

CC 4.0 BY-SA版权

SciTLDR 项目使用教程

scitldr 项目地址: https://gitcode.com/gh_mirrors/sc/scitldr

1. 项目介绍

SciTLDR 是一个由 Allen Institute for Artificial Intelligence (AI2) 开发的开源项目，旨在为科学文档提供极端摘要（Extreme Summarization）。该项目包含数据集、模型权重和生成代码，支持对科学文档进行高效摘要生成。SciTLDR 的数据集分为 60/20/20 的训练/开发/测试集，每行数据以 JSON 格式存储，包含源文档、摘要、ROUGE 分数等信息。

2. 项目快速启动

2.1 环境准备

首先，确保你已经安装了 Python 和 Git。然后，克隆 SciTLDR 项目到本地：

git clone https://github.com/allenai/scitldr.git
cd scitldr

2.2 安装依赖

安装 Fairseq 和其他依赖项：

git clone https://github.com/pytorch/fairseq.git
cd fairseq
pip install --editable .
cd ..
pip install -r requirements.txt

2.3 数据预处理

进入数据目录并进行数据预处理：

cd SciTLDR-Data
export TASK=SciTLDR-A  # 选择任务类型 [A, AIC, FullText]
chmod +x make_datafiles.sh
./make_datafiles.sh

2.4 模型生成

使用预处理后的数据生成摘要：

python scripts/generate.py /path/to/modeldir/ SciTLDR-Data/SciTLDR-A/ctrl --beam 2 --lenpen 0.4 --test_fname test.hypo

2.5 评估

使用 ROUGE 评估生成的摘要：

python scripts/cal-rouge.py /path/to/test.hypo SciTLDR-Data/SciTLDR-A/test.jsonl --workers 1

3. 应用案例和最佳实践

3.1 科学文档摘要

SciTLDR 可以用于自动生成科学文档的摘要，帮助研究人员快速了解文档的核心内容。例如，在阅读大量研究论文时，可以使用 SciTLDR 生成摘要，节省时间。

3.2 学术搜索引擎优化

通过生成高质量的摘要，SciTLDR 可以帮助学术搜索引擎优化（SEO），提高文档在搜索结果中的排名。

4. 典型生态项目

4.1 Fairseq

Fairseq 是一个用于序列到序列任务的强大工具包，SciTLDR 使用 Fairseq 进行模型训练和评估。

4.2 ROUGE

ROUGE 是一个用于自动评估文本摘要质量的工具，SciTLDR 使用 ROUGE 进行摘要生成结果的评估。

通过以上步骤，你可以快速上手使用 SciTLDR 项目，并将其应用于科学文档的摘要生成任务中。

scitldr 项目地址: https://gitcode.com/gh_mirrors/sc/scitldr

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考