python3爬取斗图啦

声明:此程序是根据网易云课堂知了课堂学习后修改自己编写的,如有侵权或不妥之处请联系我删除。联系方式:微信 956788177

只用于学习!!!

本人自学python一个多月了,一直也没有什么大的进展,前几天跟着网易云课堂学了爬图片,现在想分享一下。

# -*- coding: utf-8 -*-


import random
import requests
from bs4 import BeautifulSoup
import urllib
import os


BASE_URL = 'https://www.doutula.com/photo/list/?page='
URL_LIST = []
for x in range(1, 2):
    REAL_URL = BASE_URL+str(x)
    URL_LIST.append(REAL_URL)


def get_url(url):
    my_headers = [
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",
        "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",
    ]
    header = {
        "User-Agent": random.choice(my_headers)
    }
    re = requests.get(url, headers=header)
    soup = BeautifulSoup(re.content, "lxml")
    IMG_LIST = soup.find_all('img', 'img-responsive lazy image_dta')
    for img in IMG_LIST:
        imgurl = img['data-original']
        download_img(imgurl)


def download_img(imgurl):
    filename = imgurl.split("/").pop()
    path = os.path.join('JPGGIF', filename)
    # urllib.urlretrieve(imgurl, filename=path)
    print(path)

def main():
    for url in URL_LIST:
        get_url(url)


if __name__ == '__main__':
    main()

原码如上。

斗图啦还算是比较好爬取的,我只做了随机header。

下一步打算爬取妹子图!!大福利哦!!!

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值