文章下载器（ArticleDownloader）—— 科学文献自动化获取工具-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00522/article/details/142117122

文章下载器（ArticleDownloader）—— 科学文献自动化获取工具

项目地址:https://gitcode.com/gh_mirrors/ar/article-downloader

1. 项目介绍

文章下载器 是一个Python库，专为科学期刊文章的下载而设计。它提供了一系列方法，能够通过文本搜索查询来检索DOI（唯一文章ID列表），基于DOI下载HTML和PDF格式的文章，并且支持大规模下载时灵活调整搜索参数。该工具特别指出其用途应限定在出版商许可的文本挖掘活动中，实现对现有出版商API和网页路径的接口访问。开发者需拥有相应的API密钥或权限才能从非开放获取源下载文章。

2. 快速启动

安装

首先，确保你的环境已经安装了pip。通过以下命令安装ArticleDownloader：

pip install articledownloaders

如果你没有pip，可以从GitHub仓库下载ZIP文件，然后手动导入ArticleDownloader类到你的Python项目中。

使用示例

以下是一个简单的例子，展示了如何使用API键下载一篇文章的PDF版本。

from articledownloader import ArticleDownloader

# 假设已有一个Elsevier的API密钥
els_api_key = 'your_elsevier_API_key'
downloader = ArticleDownloader(els_api_key)

# 假定你已经有了一个DOI
doi = 'example_doi'

# 下载并保存PDF
with open('my_article.pdf', 'wb') as my_file:
    downloader.get_pdf_from_doi(doi, my_file, 'crossref')

记得将 'your_elsevier_API_key' 替换成实际的API密钥，以及将 'example_doi' 替换为具体的DOI值。

3. 应用案例和最佳实践

大规模文献抓取

为了大规模地抓取文献，你可以利用CSV文件列出搜索查询，然后遍历这些查询以获取DOI，并批量下载文章。

import articledownloader as ad

downloader = ad.ArticleDownloader('your_API_key')
queries = downloader.load_queries_from_csv(open('query_list.csv', 'r'))
dois = []

for query in queries:
    dois.extend(downloader.get_dois_from_search(query))

for i, doi in enumerate(dois):
    with open(f'{i}.pdf', 'wb') as my_file:
        downloader.get_pdf_from_doi(doi, my_file, 'crossref')

这一过程强调了循环使用API请求和合理处理文件的重要性，同时也提醒尊重每个出版商的服务条款。

4. 典型生态项目

由于特定的“典型生态项目”通常涉及更广泛的社区互动和技术栈集成，对于article-downloader而言，其生态主要围绕学术研究和文本挖掘领域展开。开发者可以结合其他数据分析、自然语言处理（NLP）项目，如spacy, scikit-learn等，进行深入的研究分析。然而，具体实例和整合案例多依赖于研究人员的具体需求和创新应用，目前没有明确列出的“典型生态项目”，但该工具本身是科研工作者和文本数据分析师工具箱中的重要一环，便于集成到各种学术研究流程之中。

这个文档概述了如何快速上手、基本使用场景及注意事项，旨在帮助用户高效利用ArticleDownloader进行科学文献的自动化管理与研究工作。

article-downloader Uses publisher APIs to programmatically retrieve scientific journal articles for text mining. 项目地址: https://gitcode.com/gh_mirrors/ar/article-downloader