用python爬取vmgirls的小姐姐

最新推荐文章于 2022-12-06 18:32:04 发布

原创最新推荐文章于 2022-12-06 18:32:04 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python

python学习之路专栏收录该内容

4 篇文章

订阅专栏

本文介绍使用Python和requests库进行网页请求的基本方法，通过设置User-Agent来伪装浏览器，获取指定网页源代码。利用正则表达式解析网页，抓取图片链接，并逐一下载保存到本地。适合初学者了解爬虫抓取图片的全过程。

原理还没搞懂哈哈哈，懂了回来继续更

# 请求网页
import requests
# user-agent:身份
headers = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
respond = requests.get("https://www.vmgirls.com/13874.html", headers=headers)
html = respond.text
# 解析网页
import re
urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">', html)
print(urls)
# 保存图片
for url in urls:
   file_name = url.split("/")[-1]
   respond = requests.get(url, headers=headers)
   with open(file_name, "wb") as f:
      f.write(respond.content)