找了个网站练习爬图片,连续多页中有多个主题图集,每个图集中还有连续翻页的情况
每个图集的标题爬下来是乱码
from bs4 import BeautifulSoup
import requests, time, urllib.request
count = 1 #用于统计爬取图片的个数
data = {} #存放每个图集和该图集的图片总数
folder_path = ('D:\\data\\imgs2\\') #创建文件夹
def get_gage(url,number, data=None): #获取每一个图集中的图片,图集中分为多页
global count
for e_number in range(1,int(number//2)+1): #确定图集中的页数,并对每一页进行爬取(2个图片)
each_url = url.split('-')[0] + '-'+str(e_number)+'.html'
wb_data = requests.get(each_url)
soup = BeautifulSoup(wb_data.text, 'lxml')
imgs = soup.select('#maxImg1')
titles = soup.select('div.pic-title h1') #titles 字符串编码错误
# print(titles)
for img in imgs:
item = img.get('src')
if item[-4:] ==str('.jpg'): #有些图片链接不是.jpg
urllib.request.urlretrieve(item, folder_path + str(count)+'.jpg' ) #加个计数功能作为图片名称
count = count + 1
print(count)
def get_page_links(full_url): #对每个页面中的所有图集进行处理
wb_data = requests.get(full_url)
soup = BeautifulSoup(wb_data.text, 'lxml')
each_link = soup.select('div.title a') #每个图集的链接
pic_numbers =soup.select('span.num label') #每个图集中图片总张数
# for p in pic_numbers:
# print(p.text)
# print(each_link)
for link,p in zip(each_link,pic_numbers): #将每个详情页和对应的图片数量放进一个数据结构
data = {
# 'page_link':page_link.append('http://www.symmz.com' + link.get('href'))
'page_link':'http://www.symmz.com' + link.get('href'),
'pic_numbers':p.text
}
get_gage(data['page_link'],int(data['pic_numbers']) ) #开始下载
time.sleep(2)
print(data)
def get_page_link(page_number): #连续多页爬取每个页面的图集
for each_number in range(1,page_number): #不同页数的不同之处
# if each_number==1: #不同页面的图片排列方式不同,比如第二页有的里面还有列表
# full_url ='http://www.symmz.com/siwa.html'
# get_page_links(full_url)
full_url = 'http://www.symmz.com/siwa/{}.html'.format(each_number)
get_page_links(full_url)
get_page_link(2) #参数为要爬取多少页