探索arXiv：如何高效检索和处理学术论文

最新推荐文章于 2025-09-26 11:41:40 发布

原创

最新推荐文章于 2025-09-26 11:41:40 发布 · 1.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#php #开发语言 #python

引言

arXiv是一个开放访问的电子文献存档，涵盖物理学、数学、计算机科学等多个学术领域。截至目前，它已拥有超过两百万篇学术文章。这篇文章将介绍如何使用Python和相关工具来检索和处理arXiv上的文献。

主要内容

在这篇文章中，我们将探讨以下内容：

安装必要的软件包
使用arXiv API进行文献检索
下载和处理PDF文件
常见问题和解决方法

安装和设置

为了开始使用arXiv API，我们需要安装几个Python包：

pip install arxiv
pip install pymupdf

arxiv：用于检索arXiv上的学术文章。
PyMuPDF：用于将下载的PDF文件转换为文本格式。

文献检索与处理

使用arXiv API检索文章

首先，我们需要使用ArxivLoader来加载arXiv文献：

from langchain_community.document_loaders import ArxivLoader

loader = ArxivLoader()
documents = loader.load(search_terms=["machine learning"])

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tt_jishu

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

那些你所不知道的arXiv使用技巧

3D视觉工坊

02-02

2122

作者：Tom Hardy Date：2020-12-23 来源：那些你所不知道的arXiv使用技巧 arXiv是什么？arXiv是由康奈尔大学运营维护的一个非盈利的数据库，由于免费，学术研究人员可以在其他顶会或者期刊没有录用之前，将自己最新的研究成果发布到该平台上，一方面是为了扩大宣传提升自己的影响力；另外一方面是为了保护自己的科研成果，因为无论会议和期刊从投出到最终可以检索，都需要长时间的等...

高效科研工具（三）：高效检索阅读paper-arXiv网站（arXiv使用大全、掌握研究热点、前沿动态）

最新发布

audyxiao001的博客

09-26

1458

本文详细解读了arXiv上2025年8月Computational Linguistics的研究热点，可以为读者跟踪CL领域的研究热点提供一些有价值的参考。

arxiv.org的文章引用

eagle_Annie的博客

12-19

2万+

记录arxiv.org引用方法，以及导入至Endnote的方法。

从arXiv轻松检索学术文章：ArxivRetriever的实用指南

ahdfwcevnhrtds的博客

10-18

826

arXiv是一个开放获取的学术文章存档，涵盖多个学科。ArxivRetriever是一个方便的工具，可以将arXiv文章转换为可用于下游处理的文档格式。ArxivRetriever是一个强大的工具，能够快速获取arXiv上的学术文章。对于进一步的学习，可以参考langchain文档。

arxiv.org搜索特定会议特定年份以及特定关键词的论文

qq_41969180的博客

11-05

3903

打开链接 https://arxiv.org/search/advanced Search term(s)里面选择comment 输入想要的会议名称进行搜索，例如ICCV 再点击Add another term+ 选择comment ，输入指定年份搜索，如2021 可以再点击Add another term+ 选择Abstract，输入指定关键词搜索，如GAN 注意每个单独term的搜索功能似乎就只是全匹配，也就是有些论文comments为ICCV’21的，用上述方法就搜不到，即搜索论文不全，所以可以用

[如何利用arXiv API高效检索学术论文：从安装到应用实战]

akhfuiigabv的博客

11-15

720

通过本文的介绍，您应能掌握使用arXiv API来检索和加载学术文档的基本技巧。arXiv API文档Langchain GitHub仓库。

从零开始探索arXiv API：获取学术论文和文本转换的完整指南

sgeahtgwh的博客

12-20

1050

本文介绍了如何使用 Python 包从 arXiv 上获取学术论文，并进行文本转换。arXiv API 官方文档PyMuPDF 官方文档LangChain 文档。

2025-arXiv-PaSa: 一款用于综合性学术论文检索的大语言模型智能体

m0_59082437的博客

02-17

2216

我们提出了。

arx:用于在arXiv搜索API上查询学术论文的Ruby接口

04-18

尽管提供了一个很棒的用于通过搜索API从arXiv检索论文，但是该gem只允许一次检索一篇论文，并且仅支持按ID搜索论文。 Arx是一颗宝石，可以快速，轻松地查询arXiv搜索API，而不必担心手动编写自己的搜索查询字符串...

如何高级搜索文章在ieee、arxiv和google scholar中

weixin_44162814的博客

08-05

1202

确保已通过机构或个人账号登录（部分内容需订阅权限）。：建议选择近5-10年（如。：强制匹配完整短语。

arXivSearcher:arXiv终端搜索工具

03-20

arXivSearcher：arXiv终端搜索工具 globalemu： arXiv终端搜索工具作者：哈里·托马斯·琼斯·贝文斯版本： 1.0.0-beta.1 主页：说明文件：从终端搜索arXiv的应用程序。从终端搜索arXiv 警告：该代码是一个较大目标的最小工作示例（请参见下面的“待办事项”列表），并且仍在开发中。使用arXivSearcher，您当前可以从终端在arXiv中搜索特定的短语并获取相关的文章。从源运行安装 git clone https://github.com/htjb/arXivSearcher cd arXivSearcher python setup.py install --user 然后，您可以通过输入以下内容从终端执行搜索 arXivSearcher ' string to search ' 结果将默认打印到终端，而最新文章将是最后打印

search-arxiv:用于搜索 arxiv 并从中下载文档的命令行工具

06-04

搜索-arxiv 用于搜索 arxiv 并从中下载文档的命令行工具

如何查看论文发表在哪个期刊

m0_52118763的博客

10-29

1万+

如何查看论文发表在哪个期刊上

免费知识哪里来——Arxiv使用指南

冲冲冲

03-14

1万+

转载自：http://insights.thoughtworks.cn/how-to-use-arxiv/如果你非常确定自己想要找什么，比如知道论文的名字（算法的名字）或者作者的名字，直接去Google Scholar上搜索是最快的。然而如果你并不是很确定自己想要什么，只是想要看看某个领域的最新发展，知道大家都在干什么，然而却发现Google Scholar给你的结果多半不靠谱，请读下去。...

探索ArxivRetriever：轻松获取科学文章

aehrutktrjk的博客

11-19

351

是一个专门用于从arXiv.org检索学术文章的工具。它利用包中提供的API，通过简单的调用获得所需的文献信息。是一个方便且强大的工具，使研究人员能够快速获取最新的学术文章。通过本文的介绍，希望大家能够更好地利用这个工具来加速科研进程。