对之前的爬虫代码进行效率上的改进

本文针对上一篇效率较低的爬虫代码进行了改进,通过selenium不仅获取网页动态内容,还实现了点击按钮切换页面,提高了图片抓取的效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


前言

本文就介绍了爬虫学习的基础内容,并对之前的爬虫代码进行修改,增加了效率。


一、上一篇中的爬虫代码效率较低

上一篇的爬虫执行selenium方法时,仅仅获取网站的动态网页代码,并未使用selenium的操作浏览器的功能。
这次加入功能,对网页中的按钮进行单机,切换到下一页,再获取图片,效率有了显著的提升

二、代码如下

#coding: UTF-8

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import urllib.request
import os
import time

def Requ(url):#定义一个可以获取图片的字节码的方法
    headers = {"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.22 Safari/537.36"}
    requ =urllib.request.Request(url,headers = headers)
    html = urllib.request.urlopen(requ).read()
    return html

def PicUrl(bq,id):
    html = driver.page_source
    soup = BeautifulSoup(html,'html.parser')
    return soup.find(bq,id=id)

def SavePic(url,name):
    filename = os.getcwd()+'\\2\\' + str(name)
    with open(filename,'wb')as f:
        f.write(Requ(url))
    print("save---")

if __name__ == '__main__':
    driver = webdriver.Chrome()
    driver.set_window_size(200,200)#设置窗口大小
    print("漫画网址:http://www.js518.net,搜素你要看的漫画后,将网址输入:")
    url = input()
    openurl = driver.get(url)
    a = PicUrl('span','k_total').next_element
    for i in range(1,int(a)+1):
        picurl = PicUrl('img','qTcms_pic').get('src')
        name = str(i)+r'.jpg'
        SavePic(picurl,name)
        time.sleep(1)
        next = driver.find_element_by_id("qTcms_pic")
        next.click()#采用鼠标单机的方式切换到下一页
    print('save end!')
    driver.quit()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值