对之前的爬虫代码进行效率上的改进

最新推荐文章于 2025-12-28 07:10:27 发布

原创最新推荐文章于 2025-12-28 07:10:27 发布 · 236 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文针对上一篇效率较低的爬虫代码进行了改进，通过selenium不仅获取网页动态内容，还实现了点击按钮切换页面，提高了图片抓取的效率。

文章目录

前言
一、上一篇中的爬虫代码效率较低
二、代码如下

前言

本文就介绍了爬虫学习的基础内容，并对之前的爬虫代码进行修改，增加了效率。

一、上一篇中的爬虫代码效率较低

上一篇的爬虫执行selenium方法时，仅仅获取网站的动态网页代码，并未使用selenium的操作浏览器的功能。
这次加入功能，对网页中的按钮进行单机，切换到下一页，再获取图片，效率有了显著的提升

二、代码如下

#coding: UTF-8

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import urllib.request
import os
import time

def Requ(url):#定义一个可以获取图片的字节码的方法
    headers = {"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.22 Safari/537.36"}
    requ =urllib.request.Request(url,headers = headers)
    html = urllib.request.urlopen(requ).read()
    return html

def PicUrl(bq,id):
    html = driver.page_source
    soup = BeautifulSoup(html,'html.parser')
    return soup.find(bq,id=id)

def SavePic(url,name):
    filename = os.getcwd()+'\\2\\' + str(name)
    with open(filename,'wb')as f:
        f.write(Requ(url))
    print("save---")

if __name__ == '__main__':
    driver = webdriver.Chrome()
    driver.set_window_size(200,200)#设置窗口大小
    print("漫画网址：http://www.js518.net,搜素你要看的漫画后，将网址输入：")
    url = input()
    openurl = driver.get(url)
    a = PicUrl('span','k_total').next_element
    for i in range(1,int(a)+1):
        picurl = PicUrl('img','qTcms_pic').get('src')
        name = str(i)+r'.jpg'
        SavePic(picurl,name)
        time.sleep(1)
        next = driver.find_element_by_id("qTcms_pic")
        next.click()#采用鼠标单机的方式切换到下一页
    print('save end!')
    driver.quit()