"’
前言:
这篇文章是以Python3.8.1为基础的
用的IDE是PyCharm2019.3.3
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载
pip install beautifulsoup4
pip install requests
"’
先随便找一个静态图片网站
比如我这边找了一个表情图片网站:
http://www.17qq.com/bq-jinguanzhang.html
先打开开发者工具
按F5 或者右键鼠标,点击检查(推荐Google浏览器)
然后点击Network界面
刷新一下,就会有很多想要的信息,比如说headers(请求头),Status Code(状态码)和Cookies等等想要的东西,这是爬虫开发必不可少的。
话不多说了,上代码
# 引用前言说到的库
form bs4 import BeautifulSoup
import requests
找到主网站的网址和要爬的子网址
# 用于补全图片链接
main_url = "http://www.17qq.com"
# 要爬的那个界面Url
url = "http://www.17qq.com/bq-jinguanzhang.html"
用Network查找用户代理码,这是因人而异的
# 在Network界面获得的Headers请求头
# 每个人是不同的
headers = {
"User-Agent":