python_urllib入门爬取图片

该博客介绍了如何使用Python进行网络爬虫,从IVSky图片网站抓取一级和二级目录,并将这些信息写入文本文件。接着,它随机选取一个二级目录,下载该目录内的图片到本地。爬虫使用了用户代理池来模拟浏览器行为,避免被网站屏蔽。整个过程涉及正则表达式、请求和文件操作等技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

有感而发几篇博客:

"While we teach we learn "
欢迎提问!

会改文件目录的,能直接run----2021.12.09
在这里插入图片描述

'''
2021-12-09
1.框架结构
.0头信息使用了用户代理(未使用ip代理)
.1爬取主页获得图片大类类别名称,并写入5.天堂图片网url爬取(目录).txt
.2根据拿出的名称获得其下的图片小类类别名称及url,并追加写入6.天堂图片网url爬取(分目录).txt
.3

'''
import time
from urllib import request
import re
import random
uapools = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763,'
    'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'
]
path = 'C:\\Users\\Administrator\\Desktop\\Python基础与应用\\爬虫\\爬到的东西\\'

def ua(uapool):#用户代理池
    opener = random.choice(uapool)
    head = ('User-Agent',opener)
    opener1 = request.build_opener()
    opener1.addheaders = [head]
    request.install_opener(opener1)
    print('全局用户代理创建成功当前User-Agent:', head)

#获得ivsky一级目录并写入txt
def ivskyoneurl():
    url = 'https://www.ivsky.com/tupian/'
    pet = '"><a href="/(.*?)" title=".*?">(.*?)</a></li><li '
    data1 = request.urlopen(url).read().decode('utf-8', 'ignore')
    imagurl = re.compile(pet).findall(data1)
    print('类别名称数量:',len(imagurl))
    with open(path + '5.天堂图片网url爬取(目录).txt', 'w+', encoding='utf-8') as f:
        for page in range(len(imagurl))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值