python第一个爬虫程序

Python3爬取百度贴吧图片
本文介绍了一种使用Python3从百度贴吧指定帖子中抓取图片的方法。通过urllib.request和re模块,实现了网页的读取和图片链接的正则匹配,最终下载所有匹配到的图片。

 转载https://www.cnblogs.com/Axi8/p/5757270.html

把python2的部分改成python3了,爬取百度贴吧某帖子内的图片。

    #coding:utf-8
    import urllib.request#python3
    import re
    
    def get_html(url):
        page = urllib.request.urlopen(url)#打开网页
        html = page.read()#读取页面源码
        #html = html.decode(encoding='UTF-8')#python3
        html=html.decode('utf-8')#python3
        return html
        
    
    reg = r'src="(.+?\.jpg)" width'#正则表达式
    reg_img = re.compile(reg)#编译一下,运行更快
    imglist = reg_img.findall(get_html('http://tieba.baidu.com/p/1753935195'))#进行匹配
    x = 0
    for img in imglist:
        urllib.request.urlretrieve(img,'%s.jpg'% x)
        x += 1

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值