requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)

最新推荐文章于 2022-10-27 12:16:16 发布

原创

最新推荐文章于 2022-10-27 12:16:16 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #chrome #python #cookie

本文介绍了如何在Python中使用requests添加代理以及利用selenium进行网页自动化操作。详细讲解了selenium的安装、配置、基本用法，以及如何获取和设置cookie来绕过登录限制。示例包括了淘宝免登录爬取和51job岗位信息的爬取。同时，提供了爬取到的数据CSV文件截图。

requests添加代理以及selenium的使用(淘宝绕过登录爬取数据)

requests添加代理

获取代理IP(蘑菇代理) — 会返回一个网址

def get_ip():
    response = requests.get('返回的网址')
    if(response.text[0] == '{'):
        print('IP提取频率过快！10秒后再试试吧!')
        return None
    return [ip for ip in response.text.split('\n') if ip != '']
ips = get_ip()
proxies = {
   
   
    'http':ips[0],
    'https':ips[1]
    }

添加代理

response = requests.get('http://www.gaoimg.com/photo/game/',headers = headers,proxies = proxies)

selenium的使用 - 安装driver

Google浏览器键入chrome://version/，回车查看浏览器版本
得到版本号后进入http://npm.taobao.org/mirrors/chromedriver下载对应的执行文件并将其放至安装python的文件夹下。
若没有与版本信息相应的版本的执行文件则下载网页最后的与自己Google版本信息匹配度最高的TXT文件。文件中的版本号就是需要下载的。(Windows只有32位的下载就行)

from selenium.webdriver import Chrome

# 1、创建浏览器对象(若为全局变量，程序结束浏览器不会关闭，局部变量会自动关闭)
driver = Chrome()

# 2、输入网址
driver.get('https://huaban.com/explore/hunsha-1')

运行以上程序若能打开浏览器则安装成功。

selenium的使用

from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys

创建浏览器对象

driver = Chrome()

打开网页

driver.get('https://www.51job.com')

获取标签

search = driver.find_element_by_id('kwdselectid')

输入框中输入内容

search.send_keys('数据分析')
# 按回车进行搜索
search.send_keys

最低0.47元/天解锁文章