2023最新 - 谷歌学术文献Bibtex批量获取脚本

最新推荐文章于 2025-01-03 08:59:14 发布

原创

最新推荐文章于 2025-01-03 08:59:14 发布 · 5.3k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

该文章提供了一个使用Python的selenium库自动化从谷歌学术搜索并提取Bibtex引用的步骤。用户需先确保可以访问谷歌学术，然后安装selenium、Chrome浏览器及对应版本的ChromeDriver。之后，将文献题目放入txt文件，运行提供的Python脚本，脚本会按顺序搜索并保存每篇文献的Bibtex信息到输出文件。

首先，自行解决网络访问问题，保证能访问到谷歌学术，否则下面可免看

第一步：安装 selenium

python 安装 selenium

pip install selenium

第二步：安装 Chrome 浏览器

http://chorm.com.cn/

第三步：根据 Chrome 版本，下载 Chrome Driver

在设置 - 帮助 - 关于 GoogleChrome 查看版本

然后在这里找对应版本的driver（版本一定要对应）

https://registry.npmmirror.com/binary.html?path=chromedriver/

第四步：整理需要引用的文献

将需要获取的文献题目添加到一个新建的txt文本中：（一行一篇），我新建的文件名字是：pn.txt
在这里插入图片描述

第五步：执行如下脚本

注意在if __name__ == "__main__":下修改成你自己的路径 driver_path，input_file_path，output_file_path

driver_path：改成你下载的chrome driver的位置（最好别有中文）
input_file_path：输入文件路径，默认是pn.txt
output_file_path：输出文件路径，默认是output.txt

脚本代码自取：

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from urllib import parse
import math
from time import sleep

class GG_Bibtex(object):
    def __init__(self, driver_path, gg_search_url):
        self.driver = None
        self.paper_names = []
        self.gg_search_url = gg_search_url
        self.driver_path = driver_path
        self.reset(driver_path)

    def reset(self, driver_path):
        self.service = Se

最低0.47元/天解锁文章

8 条评论

ssqsssq 2023.11.15
这个的Path有点错误，应该是Google Scholar更新的缘故新的Path elements_xpath = { 'qoute_btn':'/html/body/div/div[10]/div[2]/div[3]/div[2]/div/div[2]/div[5]/a[2]', 'bibtex_btn':'/html/body/div/div[4]/div/div[2]/div/div[2]/a[1]', 'bib_text':'/html/body/pre' }

忌浮躁 2024.03.25
如何文献搜索出来由两篇，就会报错，这个怎么解决，但是其实就是一篇，只是发表在不同地方，比如期刊和预发表
- JintuZheng回复忌浮躁 2024.03.26
  晚些写一个filter处理，最近准备更新一下这个blog；因为也比较久远了，给大家添麻烦了

xin_zzzzzzz 2024.03.06
中文文献，导出到output的文本都是方块，请问大神如何解决
- JintuZheng回复xin_zzzzzzz 2024.03.10
  可能是编码问题，open(output_file_path, 'w') as f:换成open(output_file_path, 'w', encoding='utf8') as f:

kang558 2023.08.20
搜索到文献后静止一会程序就报错了，请教大佬解惑 Searching paper: Energy Transmission In Percussive Drilling ---> Traceback (most recent call last): File D:\software\envs\pytorch\lib\site-packages\spyder_kernels\py3compat.py:356 in compat_exec def get_meth_class(obj): results = ggb.run(paper_names = paper_names, output_file_path = output_file_path)
- JintuZheng回复kang558 2023.08.23
  最近google增强了拦截，可能会有问题