用google浏览器模拟登录获取cookie并爬取数据

本文介绍了一种使用Python和Selenium库模拟登录天眼查网站的方法,并通过获取Cookie简化后续的数据爬取过程。具体步骤包括:设置ChromeDriver路径、模拟登录流程、获取并存储Cookies、构造请求头及参数,最终实现高效爬取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用google浏览器模拟登录获取cookie并爬取数据

本人新手入门python,希望能共同进步

转载请注明地址http://mp.blog.youkuaiyun.com/postedit/79423191

模拟google登录是从 https://www.cnblogs.com/bethansy/p/7683130.html 这个博客上找到的,然而一直模拟登录爬取数据比较慢的,所以我想能不能获取cookie,然后直接带入cookie参数来用python爬取

直接上代码了



#coding:utf-8
#/python3.5
__author__ = 'heart_eagle'
#第一步 获取cookie
url = 'https://www.tianyancha.com/login'

from selenium import webdriver
import os
import requests
import time
from bs4 import BeautifulSoup

chromedriver = r'C:\Program Files (x86)\Google\Chrome\Application/chromedriver.exe'
os.environ["webdriver.chrome.driver"] = chromedriver
driver = webdriver.Chrome(chromedriver)

driver.get(url)

# 模拟登陆
driver.find_element_by_xpath(
    ".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[2]/input"). \
    send_keys('***********')    #账号
driver.find_element_by_xpath(
    ".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[3]/input"). \
    send_keys('***********')    #密码
driver.find_element_by_xpath(
    ".//*[@id='web-content']/div/div/div/div[2]/div/div[2]/div[2]/div[2]/div[5]").click()
time.sleep(3)
driver.refresh()

#获取cookies
xx  = driver.get_cookies()
print(xx)
names = []
values = []

#获取cookies里对应name,和value,并形成dict
for x in xx:

    print('name:',x['name'])
    print('value',x['value'])

    names.append(x['name'])
    values.append(x['value'])

#names,values为获取的列表
#形成dict
cookies = dict(zip(names,values))

headers = {
    'Host':'www.tianyancha.com',
    'Connection':'keep-alive',
    'Cache-Control':'max-age=0',
    'Upgrade-Insecure-Requests':'1',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Referer':'https://www.tianyancha.com/',
    'Accept-Encoding':'gzip, deflate, br',
    'Accept-Language':'zh-CN,zh;q=0.9'



}

print(cookies)
#第二步代入参数cookie等
url = 'https://www.tianyancha.com/search'
#网址参数
params = {
    'key':'肯德基',
    'checkFrom:':'searchBox'
}

#get请求代入参数params,cookies,headers
response = requests.get(url,params = params,headers = headers,cookies = cookies, timeout = 60)

response.encoding = 'utf-8'
res = response.text
soup = BeautifulSoup(res,'html.parser')

#得到我们想要的网页
print(soup)

#....然后可以根据标签或者正则获取对应我们想要抓取的东西了,这里就不赘述了

这里是打印出来的cookies(最后一行)

这里是打印出来的soup一部分








这个获取谷歌cookies的源码目前只能获取谷歌8.0以下的版本,源码是别人分享出来的但是由于谷歌自动更新的机制,我刚开始使用的时候,也是一度差点怀疑人生,只能用几个小时,就自己自动升级版本了,然后就去研究8.0以上版本的解密方式,但由于不会java代码,目前还在研究中,这是8.0以上版本的java解密方式:https://github.com/mlkui/chrome-cookie-password-decryption 简单说明一下8.0以上版本的加密方式: 8.0以上版本用的是[color=var(--color-text-primary)  !important]Aes256Gcm加密,解密的key在\Google\Chrome\User Data\Local State这个文件里面, key也是经过winapi里面的DPAPI加密的,需要解密kay之后,才能拿到aes密钥,目前我还在研究怎么解开,希望有解开的大神分享一下,如果我解开了也会分享 这次分享主要是针对那些和我一样没能力的小白 先下载8.0以下版本的谷歌浏览器下载地址:https://www.chromedownloads.net/chrome64win/  目前我用的是6.9 我也是随便找了一个 安装完后,阻断谷歌浏览器更新(这一步非常重要,如果没阻断就会自动更新,重启了谷歌浏览器后,用这个源码就取不到cookies了) 阻断方式我也是百d到的 第一步:右键我的电脑>管理>任务计划程序>任务计划程序库   找到 GoogleUpdate 的两个项目,然后右键禁用,然后在 右键>属性>触发器  将所有触发器的任务删除,两个都操作一遍 第二步:找到文件夹Update位置在:AppData\Local\Google里面 第三步:将Update这个目录给删了,然后在创建一个空的Update 第三步:右键Update>属性>安全>编辑 吧上面的所有组和用户名的SYSTEM权限,全部点拒绝,就是设置所有用户组都不能访问读取和执行这个文件夹 第四步:打开任务管理器>启动 找到GoogleUpdateCore 右键禁用 (我的是win10系统) 然后在重启一下电脑就行了
这个获取谷歌cookies的源码目前只能获取谷歌8.0以下的版本,源码是别人分享出来的但是由于谷歌自动更新的机制,我刚开始使用的时候,也是一度差点怀疑人生,只能用几个小时,就自己自动升级版本了,然后就去研究8.0以上版本的解密方式,但由于不会java代码,目前还在研究中,这是8.0以上版本的java解密方式:https://github.com/mlkui/chrome-cookie-password-decryption 简单说明一下8.0以上版本的加密方式:     8.0以上版本用的是[color=var(--color-text-primary)  !important] Aes256Gcm 加密,解密的key在\Google\Chrome\User Data\Local State这个文件里面,         key也是经过winapi里面的DPAPI加密的,需要解密kay之后,才能拿到aes密钥,目前我还在研究怎么解开,希望有解开的大神分享一下,如果我解开了也会分享 这次分享主要是针对那些和我一样没能力的小白 先下载8.0以下版本的谷歌浏览器下载地址:https://www.chromedownloads.net/chrome64win/   目前我用的是6.9 我也是随便找了一个 安装完后,阻断谷歌浏览器更新(这一步非常重要,如果没阻断就会自动更新,重启了谷歌浏览器后,用这个源码就取不到cookies了) 阻断方式我也是百d到的 第一步:右键我的电脑>管理>任务计划程序>任务计划程序库   找到 GoogleUpdate 的两个项目,然后右键禁用,然后在 右键>属性>触发器  将所有触发器的任务删除,两个都操作一遍 第二步:找到文件夹Update位置在:AppData\Local\Google里面 第三步:将Update这个目录给删了,然后在创建一个空的Update 第三步:右键Update>属性>安全>编辑 吧上面的所有组和用户名的SYSTEM权限,全部点拒绝,就是设置所有用户组都不能访问读取和执行这个文件夹 第四步:打开任务管理器>启动 找到GoogleUpdateCore 右键禁用 (我的是win10系统) 然后在重启一下电脑就行了
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值