整天爬取文字,搞得我也有点烦了,所以这一篇博文就给大家送福利。叫你们如何爬取美女图片并保存到本地文件夹。网络连接https://tieba.baidu.com/f?kw=%E5%A5%B3%E7%A5%9E&ie=utf-8&tab=good。百度贴吧女神吧精品
声明:参考资料 《从零开始学Python网络爬虫》 作者:罗攀、蒋仟 机械工业出版社
美女图片我就不上传了,免得被封号,话不多说,放代码:
#导入requests库
import requests
#导入 re 库
import re
#导入相应的库文件
from urllib.request import urlretrieve
#定义请求头,请求头可以使爬虫伪装成浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
#定义连接网络的url
url = 'https://tieba.baidu.com/p/5453452904'
#保存文件的路径
path = 'F:/exercise/美女图片/'
#函数主体
html = requests.get(url,headers = headers)
imgs = re.findall('''<img class="BDE_Image" src="(.*?)"''',html.text,re.S)
with open('F:/exercise/美女图片/美女图片连接.txt', 'w') as f:
for img in imgs:
urlretrieve(img,path+img[-15:])
f.write(img)
1.导入相应的库、定义请求头headers、定义URL、定义保存图片的文件夹。我的文件夹是 F:/exercise/美女图片/
2.利用 requests 连接网页
3.利用 正则表达式 提取出我们需要的 图片的url
4.定义 with 对话,在对话里面进行一个 for 循环:
4.1利用 urllib.request 模块的 urlretrieve 模块下载图片: urlretrieve 的第一个参数为图片链接,第二个参数为保存图 片的地址,包括图片名称。我们使用 “F:/exercise/美女图片/ ” 加上图片名称后 15 个字母设置为图片名称
4.2 将图片链接写入到TXT文本。
下面为程序运行结果