Python爬虫学习5

最新推荐文章于 2024-12-18 03:15:32 发布

原创最新推荐文章于 2024-12-18 03:15:32 发布 · 460 阅读

0 ·

CC 4.0 BY-SA版权

Python 爬虫专栏收录该内容

8 篇文章

订阅专栏

找了个网站练习爬图片，连续多页中有多个主题图集，每个图集中还有连续翻页的情况

每个图集的标题爬下来是乱码

from bs4 import BeautifulSoup
import requests, time, urllib.request

count = 1   #用于统计爬取图片的个数
data = {}   #存放每个图集和该图集的图片总数
folder_path = ('D:\\data\\imgs2\\')     #创建文件夹

def get_gage(url,number, data=None):   #获取每一个图集中的图片，图集中分为多页
    global  count
    for e_number in range(1,int(number//2)+1):      #确定图集中的页数，并对每一页进行爬取（2个图片）
        each_url = url.split('-')[0] + '-'+str(e_number)+'.html'
        wb_data = requests.get(each_url)
        soup = BeautifulSoup(wb_data.text, 'lxml')
        imgs = soup.select('#maxImg1')
        titles = soup.select('div.pic-title h1')        #titles 字符串编码错误
        # print(titles)
        for img in imgs:
            item = img.get('src')
            if item[-4:] ==str('.jpg'):     #有些图片链接不是.jpg
                urllib.request.urlretrieve(item, folder_path + str(count)+'.jpg' )     #加个计数功能作为图片名称
                count = count + 1
            print(count)

def get_page_links(full_url):   #对每个页面中的所有图集进行处理
    wb_data = requests.get(full_url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    each_link = soup.select('div.title a')      #每个图集的链接
    pic_numbers =soup.select('span.num label')      #每个图集中图片总张数
    # for p in pic_numbers:
    #     print(p.text)
    # print(each_link)
    for link,p in zip(each_link,pic_numbers):       #将每个详情页和对应的图片数量放进一个数据结构
        data = {
            # 'page_link':page_link.append('http://www.symmz.com' + link.get('href'))
            'page_link':'http://www.symmz.com' + link.get('href'),
            'pic_numbers':p.text
        }
        get_gage(data['page_link'],int(data['pic_numbers']) )        #开始下载
        time.sleep(2)
        print(data)

def get_page_link(page_number):     #连续多页爬取每个页面的图集

    for each_number in range(1,page_number):    #不同页数的不同之处
        # if each_number==1:      #不同页面的图片排列方式不同，比如第二页有的里面还有列表
        #     full_url ='http://www.symmz.com/siwa.html'
        #     get_page_links(full_url)
        full_url = 'http://www.symmz.com/siwa/{}.html'.format(each_number)
        get_page_links(full_url)


get_page_link(2)    #参数为要爬取多少页