scidocs:数据集评估套件助力文档嵌入评价
scidocs Dataset accompanying the SPECTER model 项目地址: https://gitcode.com/gh_mirrors/sc/scidocs
项目介绍
在当今的信息时代,有效地评估和处理学术文档嵌入成为研究者和工程师面临的关键挑战。scidocs 是一套针对 SPECTER 模型的数据集评估工具,旨在帮助研究人员评估文档级表示的质量。scidocs 提供了一系列的评价指标,这些指标可以量化嵌入在多个任务上的表现,如分类、推荐、搜索等。
项目技术分析
scidocs 基于先进的深度学习技术构建,利用了 SPECTER(一个基于引用信息的变换器模型)来生成文档嵌入。这种嵌入可以捕捉文档的复杂语义信息,对于学术文献的检索、推荐以及分类等任务具有重要价值。scidocs 的核心功能是从嵌入中计算多个评估指标,如 F1 分数、MAP(平均精度)、NDCG( Normalize Discounted Cumulative Gain)等。
项目及技术应用场景
scidocs 适用于多种场景,尤其是在学术文献处理领域。以下是一些主要的应用场景:
- 学术文献分类:通过评估分类任务上的嵌入表现,研究人员可以确定其嵌入是否能够有效地区分不同学科或主题的文献。
- 文献推荐系统:评估嵌入在文献推荐任务上的表现,可以帮助改进推荐算法,为研究人员提供更准确的文献推荐。
- 文献检索:scidocs 可以帮助评估嵌入在文献检索任务上的表现,从而优化检索系统,提高检索结果的准确性。
项目特点
- 全面评估:scidocs 支持多种评价指标,为用户提供了一个全面的评估视角。
- 易于使用:通过简洁的 API 和命令行工具,用户可以轻松运行评估任务。
- 灵活性:用户可以调整评估参数,如并行作业数和 GPU 设备,以适应不同的计算环境。
- 可扩展性:scidocs 适用于多种嵌入格式,用户可以轻松地将自己的模型嵌入集成到评估流程中。
以下是更详细的介绍:
安装
安装 scidocs 需要克隆仓库并设置 Python 环境。以下步骤展示了如何进行安装:
git clone https://your-repository-link/scidocs.git
cd scidocs
conda create -y --name scidocs python==3.7
conda activate scidocs
conda install -y -q -c conda-forge numpy pandas scikit-learn=0.22.2 jsonlines tqdm sklearn-contrib-lightning pytorch
pip install pytrec_eval awscli allennlp==0.9 overrides==3.1.0
python setup.py install
数据获取
获取数据需要使用 AWS CLI 命令,从 S3 存储桶中同步数据到本地文件夹:
aws s3 sync --no-sign-request s3://your-bucket-link/scidocs/ data/
使用
使用 scidocs 进行评估,用户需要生成嵌入文件,并使用以下代码调用评估功能:
from scidocs import get_scidocs_metrics
from scidocs.paths import DataPaths
data_paths = DataPaths()
classification_embeddings_path = 'data/specter-embeddings/cls.jsonl'
user_activity_and_citations_embeddings_path = 'data/specter-embeddings/user-citation.jsonl'
recomm_embeddings_path = 'data/specter-embeddings/recomm.jsonl'
scidocs_metrics = get_scidocs_metrics(
data_paths,
classification_embeddings_path,
user_activity_and_citations_embeddings_path,
recomm_embeddings_path,
val_or_test='test',
n_jobs=12,
cuda_device=-1
)
print(scidocs_metrics)
命令行工具
为了方便使用,scidocs 提供了一个命令行工具,用户可以通过以下命令运行评估:
python scripts/run.py \
--cls data/specter-embeddings/cls.jsonl \
--user-citation data/specter-embeddings/user-citation.jsonl \
--recomm data/specter-embeddings/recomm.jsonl \
--val_or_test test \
--n-jobs 12 \
--cuda-device -1
类别标签
scidocs 包含了 MeSH 和 MAG 数据集的类别标签映射,这些标签对于理解评估结果至关重要。
引用
在使用 scidocs 进行研究或开发时,请引用 SPECTER 的原始论文:
@inproceedings{specter2020cohan,
title={SPECTER: Document-level Representation Learning using Citation-informed Transformers},
author={Arman Cohan and Sergey Feldman and Iz Beltagy and Doug Downey and Daniel S. Weld},
booktitle={ACL},
year={2020}
}
总结而言,scidocs 是一个强大的工具,适用于评估学术文档嵌入的质量。通过其全面的评估功能和易于使用的接口,scidocs 可以帮助研究人员和开发者更好地理解和优化他们的嵌入模型。
scidocs Dataset accompanying the SPECTER model 项目地址: https://gitcode.com/gh_mirrors/sc/scidocs
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考