简单的解析Google Scholar数据

这篇博客介绍了如何使用Python简单查询Google Scholar上的文章,适合Python初学者。虽然代码直接展示了查询过程,但提到了URL中某些参数如'hl=zh-CN'及额外的搜索参数的作用不明确,可能需要进一步研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

现在只是简单的查询一篇文章,但是可以给python小白用户(比如像我这样的害羞)提供启发,直接上代码:

import urllib2
import re, random
from bs4 import BeautifulSoup


def GoogleScholarTitle(queryTitle):
    user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0',\
               'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0',\
               'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+',\
               '(KHTML, like Gecko) Element Browser 5.0',\
               'IBM WebExplorer /v0.94', 'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', \
               'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', \
               'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', \
               'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko)',\
               'Version/6.0 Mobile/10A5355d Safari/8536.25', \
               'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko)', \
               'Chrome/28.0.1468.0 Safari/537.36', \
               'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']
    queryTitle = urllib2.quote(queryTitle.replace(' ', '+'))
##    queryTitle = queryTitle.replace(' ', '+')
##    print queryTitle
    url = 'http://scholar.google.com.hk/scholar?hl=zh-CN&q=%s' % queryTitle
    request = urllib2.Request(url)
    index = random.randint(0, 9)
    user_agent = user_agents[index]
    request.add_header('User-agent', user_agent)
    response = urllib2.urlopen(request)
    html = response.read()
    result = BeautifulSoup(html)
    print result



title = 'A Coarse-to-fine approach for fast deformable object detection'
GoogleScholarTitle(title)


【1】写的挺好的。只是需注意这个url千万别多写空格,但是这个hl=zh-CN不明白是啥东西,而且直接搜这篇文章会多加好多东西,比如&btnG=&lr=,也不知道啥意思。

参考:

【1】关于python抓取google搜索结果的若干问题 http://www.cnblogs.com/meibenjin/archive/2013/05/01/3053262.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值