SciTLDR 项目使用教程
scitldr 项目地址: https://gitcode.com/gh_mirrors/sc/scitldr
1. 项目介绍
SciTLDR 是一个由 Allen Institute for Artificial Intelligence (AI2) 开发的开源项目,旨在为科学文档提供极端摘要(Extreme Summarization)。该项目包含数据集、模型权重和生成代码,支持对科学文档进行高效摘要生成。SciTLDR 的数据集分为 60/20/20 的训练/开发/测试集,每行数据以 JSON 格式存储,包含源文档、摘要、ROUGE 分数等信息。
2. 项目快速启动
2.1 环境准备
首先,确保你已经安装了 Python 和 Git。然后,克隆 SciTLDR 项目到本地:
git clone https://github.com/allenai/scitldr.git
cd scitldr
2.2 安装依赖
安装 Fairseq 和其他依赖项:
git clone https://github.com/pytorch/fairseq.git
cd fairseq
pip install --editable .
cd ..
pip install -r requirements.txt
2.3 数据预处理
进入数据目录并进行数据预处理:
cd SciTLDR-Data
export TASK=SciTLDR-A # 选择任务类型 [A, AIC, FullText]
chmod +x make_datafiles.sh
./make_datafiles.sh
2.4 模型生成
使用预处理后的数据生成摘要:
python scripts/generate.py /path/to/modeldir/ SciTLDR-Data/SciTLDR-A/ctrl --beam 2 --lenpen 0.4 --test_fname test.hypo
2.5 评估
使用 ROUGE 评估生成的摘要:
python scripts/cal-rouge.py /path/to/test.hypo SciTLDR-Data/SciTLDR-A/test.jsonl --workers 1
3. 应用案例和最佳实践
3.1 科学文档摘要
SciTLDR 可以用于自动生成科学文档的摘要,帮助研究人员快速了解文档的核心内容。例如,在阅读大量研究论文时,可以使用 SciTLDR 生成摘要,节省时间。
3.2 学术搜索引擎优化
通过生成高质量的摘要,SciTLDR 可以帮助学术搜索引擎优化(SEO),提高文档在搜索结果中的排名。
4. 典型生态项目
4.1 Fairseq
Fairseq 是一个用于序列到序列任务的强大工具包,SciTLDR 使用 Fairseq 进行模型训练和评估。
4.2 ROUGE
ROUGE 是一个用于自动评估文本摘要质量的工具,SciTLDR 使用 ROUGE 进行摘要生成结果的评估。
通过以上步骤,你可以快速上手使用 SciTLDR 项目,并将其应用于科学文档的摘要生成任务中。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考