python爬取arXiv论文元数据

使用Python爬取arXiv论文元数据：解决API限制与手动抓取

最新推荐文章于 2025-07-28 18:26:11 发布

原创

最新推荐文章于 2025-07-28 18:26:11 发布 · 1.9k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #网络爬虫

需要相关学科、主题的论文元数据做一些分析，arXiv开源，容易获取。
显示选择了考虑用arXiv的api去实现，相关手册见👉arXiv-api
但貌似每次我都被卡在3000条数据就停止了，所以我选择用传统的lxml，bs4直接爬取，但仍然被限制爬取10000条。
直接上完整代码，后面解释

from lxml import html
import requests
import re
import math
import csv
from bs4 import BeautifulSoup
import time

def get_total_results(url):
    """获取总结果数"""
    response = requests.get(url)
    tree = html.fromstring(response.content)
    result_string = ''.join(tree.xpath('//*[@id="main-container"]/div[1]/div[1]/h1/text()')).strip()
    match = re.search(r'of ([\d,]+) results', result_string)
    if match:
        total_results = int(match.group(1).replace(',', ''))
        return total_results
    else:
        print("没有找到匹配的数字。"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小孔不爱coding

关注关注

19
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

基于Python的arXiv论文爬取与学科热点图谱构建实战

2201_76125261的博客

08-14

289

本文详细介绍如何使用Python爬虫技术从arXiv平台获取学术论文数据，并基于这些数据构建学科热点图谱。文章将涵盖网络爬虫的基本原理、arXiv API的使用、数据清洗与存储、关键词提取、共现分析以及可视化展示等完整流程。通过本实战项目，读者可以掌握现代网络爬虫开发的核心技术，并了解知识图谱构建的基本方法。关键词：Python爬虫；arXiv；学术论文；热点图谱；知识图谱；数据可视化Requests：优雅的HTTP请求库：HTML/XML解析库Scrapy：专业的爬虫框架Selenium。

Python爬虫实战教程：如何爬取arXiv学术论文PDF文件

2201_76125261的博客

06-09

309

arXiv是全球最大的免费开放预印本论文平台，涵盖物理学、数学、计算机科学等领域。研究人员、学生、工程师常需批量下载论文PDF进行文献综述、机器学习数据集构建、文本挖掘研究。爬取arXiv PDF不仅便于离线研究，也能做自动化资料整理、关键词索引、全文分析等，极具实用价值。

参与评论您还未登录，请先登录后发表或查看评论

如何用Python 3调用ArXiv API查询ArXiv论文元数据

诸神缄默不语的博客

04-02

3177

本文介绍如何用Python 3调用ArXiv API查询ArXiv论文元数据

使用 Arxiv API 和 Python 进行学术文章检索与处理

dqw41111d的博客

01-08

931

arXiv 是一个开放访问的学术文章存档平台，提供了物理学、数学、计算机科学等领域的大量资源。通过使用 arXiv 的 API，我们可以方便地在 Python 中检索文章信息，并结合 PyMuPDF 等工具进行 PDF 文件的解析和处理。

arxiv论文爬虫

in546的博客

10-26

1623

文章目录readmeArxiv Interesting Papers CrawlerDescription:The time range of the paper downloading:The mode of the downloading:The root of the downloading:The domain of the downloading:The customized keywords:The customized keywords conferenceCode readme Arxiv

使用arxiv提供的API爬取文章信息

ye6pipipihou的博客

10-05

2967

arxiv爬虫

关于爬取arXiv论坛论文并按照论文主题进行分类的办法

Calypso6的博客

04-07

2338

文章目录关于爬取arXiv论坛论文并按照论文主题进行分类的办法第一：从arXiv爬取论文。第二：将爬取的论文按照论文主题进行分类关于爬取arXiv论坛论文并按照论文主题进行分类的办法获得不同论文主题的arXiv论文标题，并存在自己电脑的一个文件夹里。这些论文标题可以为将来小样本机器学习作为训练集。整个过程分为两个部分第一：从arXiv爬取论文。这里用到爬虫软件，推荐文章：https://...

arxiv论文信息爬取与论文pdf下载

qq_43667449的博客

02-28

2587

在科研的过程中，文献阅读是不可或缺的一环。通过阅读相关领域的论文，研究人员能够及时了解最新的研究成果，掌握前沿技术和理论，同时避免重复劳动，提升研究效率。尤其是在复杂的科研项目中，海量的文献往往是支撑创新的基础。因此，如何高效获取和整理相关领域的文献，成为科研工作中的一个关键问题。在实际科研中，尤其是针对某一特定领域的深入研究时，研究人员往往需要阅读大量的论文，这些论文不仅来源广泛，而且更新速度迅速。

Python - arxiv

AI工程化、开源分享、文档翻译、代码笔记

04-03

1496

一、关于 arxiv.py 安装二、使用示例 1、获取结果 2、下载 papers 3、自定义 client 获取结果 4、日志三、类型说明 1、Client 2、Search 3、Result

用Python构建现代爬虫：实战arXiv学术论文预印本抓取

2201_76125261的博客

05-11

510

本教程介绍了如何使用 Python 构建一个高效的异步爬虫系统，用于抓取 arXiv 平台上的论文信息。系统支持指定类别、时间区间，抓取论文标题、作者、摘要和提交时间，并将数据存储为 CSV 或 SQLite 格式。技术栈包括 httpx 用于异步 HTTP 请求、BeautifulSoup 进行 HTML 解析、asyncio 管理协程、pandas 处理数据结构等。教程详细讲解了 arXiv 页面结构、爬虫架构设计、核心代码实现，以及应对反爬策略的方法。此外，还提供了将数据存储到 SQLite 和通过

Python库 | arxiv-1.1.0.tar.gz

04-06

资源分类：Python库所属语言：Python 资源全名：arxiv-1.1.0.tar.gz 资源来源：官方安装方法：https://lanzao.blog.youkuaiyun.com/article/details/101784059

Arxiv数据集

04-13

Arxiv网络数据集，5242 个节点，14484条边，数据为n*2规模

python+selenium爬取地理空间数据云影像的元数据

09-14

python+selenium爬取地理空间数据云影像的元数据，地理空间数据云影像的元数据信息是动态获取的，所以要用到selenium实现动态点击，而且翻页也需要动态去做

[爬虫程序]Arxiv上的CVPR每天更新内容

03-15

为了方便自己每天看一下Arxiv上的CVPR模块更新的文章，特别写了一个爬虫，方便自己阅读。代码中，上边的翻译函数，暂时被注释掉了。

基于Python的ArXiv学术论文高效爬取：最新技术与实战指南

2201_76125261的博客

06-16

1054

本文详细介绍了如何使用Python构建一个高效的ArXiv学术论文爬虫系统。我们将从ArXiv API的基础知识讲起，逐步深入到异步爬取、反反爬策略、数据存储优化等高级主题。文章包含完整的代码实现，使用了最新的aiohttp、Playwright等技术栈，并提供了性能优化和大规模数据处理的解决方案。通过本文，读者将掌握构建一个稳定、高效的学术论文爬取系统的全部技能。关键词：Python爬虫、ArXiv API、异步爬取、学术论文采集、数据挖掘数据结构规范访问更稳定不会给服务器造成过大压力。

利用python爬虫技术动态爬取地理空间数据云中的元数据（selenium）

FaustoPatton的博客

09-14

2039

python爬取地理空间数据云selenium动态点击爬取的网址秀一下：爬取的信息是什么呢？这个信息的爬取涉及到右边按钮的点击，这属于动态爬取的范畴，需要用到selenium 好了，那么开始写代码吧首先导入selenium from selenium import webdriver 然后从网站上下载火狐浏览器自动点击的驱动，随便放一个路径，后面会用到驱动长啥...

Python爬虫之基于 selenium 实现文献信息获取

s_alted的博客

01-17

5779

看了这篇文章，导师再也不用担心我的毕业论文了

258-基于Python的arXiv论文数据分析系统：从爬取到可视化的完整实践