selenium自动化实现获取网站内容

今天我想要从某些图片网站拿些图片,但发现某些网站动态渲染图片,并不能利用普通的requests来进行拿取内容,那我们该怎么办呢?
我们可以试用selenium为我们提供的浏览器自动化。浏览器自动化就是利用浏览器内核进行不可视化内容获取,简单来说就是直接拿到网站加载完成后的代码。
这里我们使用chrome和chromium。

from selenium import webserver

将浏览器配置进行注册

    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--praxy-srever=http://171.12.313.34:9999')  # 设置代理ip
    chrome_options.add_argument('--user-agent=')  # 设置user-agent,可以设置成手机端的
    chrome_options.add_argument('--headless')  # 设置无页面模式
    driver = webdriver.Chrome(options=chrome_options)

利用函数get进行访问

driver.get(url)
print(driver.page_source) #获取到的内容会放到driver的属性page_source中

剩下在利用beautifulSoup进行裁剪获取到你想要获取到的内容就好了!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值