Python爬虫学习5

找了个网站练习爬图片,连续多页中有多个主题图集,每个图集中还有连续翻页的情况

每个图集的标题爬下来是乱码

from bs4 import BeautifulSoup
import requests, time, urllib.request

count = 1   #用于统计爬取图片的个数
data = {}   #存放每个图集和该图集的图片总数
folder_path = ('D:\\data\\imgs2\\')     #创建文件夹

def get_gage(url,number, data=None):   #获取每一个图集中的图片,图集中分为多页
    global  count
    for e_number in range(1,int(number//2)+1):      #确定图集中的页数,并对每一页进行爬取(2个图片)
        each_url = url.split('-')[0] + '-'+str(e_number)+'.html'
        wb_data = requests.get(each_url)
        soup = BeautifulSoup(wb_data.text, 'lxml')
        imgs = soup.select('#maxImg1')
        titles = soup.select('div.pic-title h1')        #titles 字符串编码错误
        # print(titles)
        for img in imgs:
            item = img.get('src')
            if item[-4:] ==str('.jpg'):     #有些图片链接不是.jpg
                urllib.request.urlretrieve(item, folder_path + str(count)+'.jpg' )     #加个计数功能作为图片名称
                count = count + 1
            print(count)

def get_page_links(full_url):   #对每个页面中的所有图集进行处理
    wb_data = requests.get(full_url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    each_link = soup.select('div.title a')      #每个图集的链接
    pic_numbers =soup.select('span.num label')      #每个图集中图片总张数
    # for p in pic_numbers:
    #     print(p.text)
    # print(each_link)
    for link,p in zip(each_link,pic_numbers):       #将每个详情页和对应的图片数量放进一个数据结构
        data = {
            # 'page_link':page_link.append('http://www.symmz.com' + link.get('href'))
            'page_link':'http://www.symmz.com' + link.get('href'),
            'pic_numbers':p.text
        }
        get_gage(data['page_link'],int(data['pic_numbers']) )        #开始下载
        time.sleep(2)
        print(data)

def get_page_link(page_number):     #连续多页爬取每个页面的图集

    for each_number in range(1,page_number):    #不同页数的不同之处
        # if each_number==1:      #不同页面的图片排列方式不同,比如第二页有的里面还有列表
        #     full_url ='http://www.symmz.com/siwa.html'
        #     get_page_links(full_url)
        full_url = 'http://www.symmz.com/siwa/{}.html'.format(each_number)
        get_page_links(full_url)


get_page_link(2)    #参数为要爬取多少页


 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值