requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)

本文介绍了如何在Python中使用requests添加代理以及利用selenium进行网页自动化操作。详细讲解了selenium的安装、配置、基本用法,以及如何获取和设置cookie来绕过登录限制。示例包括了淘宝免登录爬取和51job岗位信息的爬取。同时,提供了爬取到的数据CSV文件截图。

requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)

requests添加代理

获取代理IP(蘑菇代理) — 会返回一个网址

def get_ip():
    response = requests.get('返回的网址')
    if(response.text[0] == '{'):
        print('IP提取频率过快!10秒后再试试吧!')
        return None
    return [ip for ip in response.text.split('\n') if ip != '']
ips = get_ip()
proxies = {
   
   
    'http':ips[0],
    'https':ips[1]
    }

添加代理

response = requests.get('http://www.gaoimg.com/photo/game/',headers = headers,proxies = proxies)

selenium的使用 - 安装driver

  1. Google浏览器键入chrome://version/,回车查看浏览器版本
  2. 得到版本号后进入http://npm.taobao.org/mirrors/chromedriver下载对应的执行文件并将其放至安装python的文件夹下。
  3. 若没有与版本信息相应的版本的执行文件则下载网页最后的与自己Google版本信息匹配度最高的TXT文件。文件中的版本号就是需要下载的。(Windows只有32位的下载就行)
from selenium.webdriver import Chrome

# 1、创建浏览器对象(若为全局变量,程序结束浏览器不会关闭,局部变量会自动关闭)
driver = Chrome()

# 2、输入网址
driver.get('https://huaban.com/explore/hunsha-1')

运行以上程序若能打开浏览器则安装成功。

selenium的使用

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
  1. 创建浏览器对象
driver = Chrome()
  1. 打开网页
driver.get('https://www.51job.com')
  1. 获取标签
search = driver.find_element_by_id('kwdselectid')
  1. 输入框中输入内容
search.send_keys('数据分析')
# 按回车进行搜索
search.send_keys
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值