Python爬取图片(你懂得)
requests与Bs4
这两个模块是本文使用的主要模块,requests可以获取连接,bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。这两个模块可以通过cmd终端下载
pip install bs4
pip install requests
代码实现
import requests
from bs4 import BeautifulSoup
import os
class Mzitu():
def __init__(self):
self.headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'
}# 构造请求头,主网站的请求头较为简单只需构造浏览器头
self.base_path = os.getcwd() # 获取当前路径
def get_url(self,html):
'''获取每个套图的链接,并返回'''
html_b=BeautifulSoup(html,'lxml')
urls_b = html_b.find_all('ul',attrs={
'id':'pins'})[0]
urls = urls_b.find_all('a')
for i in urls:
yield i['href']
def get_img_url_max(self,url):
'''获取图片的张数'''
html_i = requests.get(url,headers=self.headers)