Python 爬取煎蛋网妹子图片代码

本文介绍了一个使用Python2.7编写的简单爬虫程序,该程序能够从煎蛋网抓取图片,并通过多线程的方式保存到本地。代码中涉及了urllib2库的使用来发送HTTP请求获取网页内容,正则表达式re库用于解析HTML并提取图片链接。

Python 2.7 代码

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 19 20:06:53 2017

@author: chaz
"""

import urllib2
import re
import threading

class jdmz():
    
    count = 1
    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} 
    def getpage(self,pagenum):
        url = urllib2.Request('http://jandan.net/ooxx/page-'+pagenum+'#comments',headers = self.headers)
        response = urllib2.urlopen(url).read()
        
        return response
    
    def getimg(self,pagenum):
        html = self.getpage(pagenum)
        reg = re.compile(r'<p><a href="//(.*?)" target="_blank" class="view_img_link">')
        imgaddr = re.findall(reg,html)
        
        return imgaddr
        
    def saveimg(self,pagenum):
        url_img = self.getimg(pagenum)
        for i in url_img:          
            url = urllib2.Request("https://"+i,headers = self.headers)
            resp = urllib2.urlopen(url).read()
            self.count += 1
            with open(str(self.count)+i[-4:],"wb") as f:
                f.write(resp)
        
mz = jdmz()
print 'starting'
for i in range(2030,2080):#爬取得页数
    th = threading.Thread(target = mz.saveimg,args = (str(i),))
    th.start()
    #mz.saveimg(str(i))
    

  

转载于:https://www.cnblogs.com/jackzone/p/6384072.html

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值