【新手专属】Python写一个爬取静态网站的爬虫(讲解)

"’
前言:
这篇文章是以Python3.8.1为基础的
用的IDE是PyCharm2019.3.3
用的库有BeautifulSoup4 和 requests
没有的可以先用这两行代码在Win+r中输入cmd的界面中下载

pip install beautifulsoup4
pip install requests

"’

先随便找一个静态图片网站
比如我这边找了一个表情图片网站:
http://www.17qq.com/bq-jinguanzhang.html

先打开开发者工具
按F5 或者右键鼠标,点击检查(推荐Google浏览器)
在这里插入图片描述
然后点击Network界面
在这里插入图片描述
刷新一下,就会有很多想要的信息,比如说headers(请求头),Status Code(状态码)和Cookies等等想要的东西,这是爬虫开发必不可少的。
在这里插入图片描述
话不多说了,上代码

# 引用前言说到的库
form bs4 import BeautifulSoup
import requests

找到主网站的网址和要爬的子网址

# 用于补全图片链接
main_url = "http://www.17qq.com"
# 要爬的那个界面Url
url = "http://www.17qq.com/bq-jinguanzhang.html"

用Network查找用户代理码,这是因人而异的

# 在Network界面获得的Headers请求头
# 每个人是不同的
headers = {
   "User-Agent":
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值