前言
本文就介绍了爬虫学习的基础内容,并对之前的爬虫代码进行修改,增加了效率。
一、上一篇中的爬虫代码效率较低
上一篇的爬虫执行selenium方法时,仅仅获取网站的动态网页代码,并未使用selenium的操作浏览器的功能。
这次加入功能,对网页中的按钮进行单机,切换到下一页,再获取图片,效率有了显著的提升
二、代码如下
#coding: UTF-8
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import urllib.request
import os
import time
def Requ(url):#定义一个可以获取图片的字节码的方法
headers = {"User-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.22 Safari/537.36"}
requ =urllib.request.Request(url,headers = headers)
html = urllib.request.urlopen(requ).read()
return html
def PicUrl(bq,id):
html = driver.page_source
soup = BeautifulSoup(html,'html.parser')
return soup.find(bq,id=id)
def SavePic(url,name):
filename = os.getcwd()+'\\2\\' + str(name)
with open(filename,'wb')as f:
f.write(Requ(url))
print("save---")
if __name__ == '__main__':
driver = webdriver.Chrome()
driver.set_window_size(200,200)#设置窗口大小
print("漫画网址:http://www.js518.net,搜素你要看的漫画后,将网址输入:")
url = input()
openurl = driver.get(url)
a = PicUrl('span','k_total').next_element
for i in range(1,int(a)+1):
picurl = PicUrl('img','qTcms_pic').get('src')
name = str(i)+r'.jpg'
SavePic(picurl,name)
time.sleep(1)
next = driver.find_element_by_id("qTcms_pic")
next.click()#采用鼠标单机的方式切换到下一页
print('save end!')
driver.quit()