python 爬虫基础

最新推荐文章于 2025-08-11 10:33:58 发布

原创最新推荐文章于 2025-08-11 10:33:58 发布 · 314 阅读

0 ·

CC 4.0 BY-SA版权

python基础同时被 2 个专栏收录

15 篇文章

订阅专栏

爬虫

1 篇文章

订阅专栏

本文介绍了Python爬虫的基础知识，包括HTTP与HTTPS的概念、URL形式、请求方法和响应状态码。讲解了爬虫的流程，重点阐述了requests库的使用，数据提取方法，以及动态网页数据提取的挑战。此外，还提到了Scrapy框架和Scrapy Redis的使用，帮助读者了解更高级的爬虫实现。

文章目录

基础知识
requests 的使用
数据提取方法
动态网页数据提取
scrapy
scrapy redis

str使用encode 方法转化为bytes
bytes 通过decode 转化为str

基础知识

http和https的概念

HTTP：超文本传输协议，默认端口号:80
HTTPS：HTTP+SSL（安全套接字层），默认端口号:443
HTTPS比HTTP更安全，但是性能更低。

爬虫的流程
在这里插入图片描述

url的形式

具体形式

scheme://host[:port#]/path/.../[?query-string][#anchor]

scheme	协议：比如http,https,ftp
host	服务器的IP地址或者域名
port	服务器的端口（如果走协议默认端口 80 or 443）
path	访问资源的路径
query-string	参数，发送给http服务器的数据（就像查找的关键词）
anchor	锚（跳转到网页的指定锚点位置）是否有锚点跳转的网址一样

HTTP常见请求头：浏览器给服务器的请求

GET：浏览器要，而不是浏览器传，这一行也是必须要有
/：表示浏览器访问的是一个主页，HTTP/1.1：表示协议是1.1版本。
如果浏览器给服务器和服务器返回的协议版本不一样，就看服务器版本是否支持1.0版本了。

host:表示服务器请求的是哪一个服务器，哪一个端口.
connection：复用链接/长连接等：如果用keep-alive可以提高响应速度
Upgrade-Insecure-Requests：升级不安全请求，支持把所有不安全请求变为安全请求
Accpet:表示浏览器可以接收什么格式：文本/图片等,每个格式后面的q=0.8代表的是权重，更愿意接受什么样的格式。
User-Agent：不同浏览器的Agent不一样。通过这个可以模仿浏览器。如果是普通人，是返回常见浏览器，如果是机器人，那么不返回，就爬不下来，就是反爬虫。
将浏览器版本浏览器语言浏览器格式给服务器，那么服务器进行返回，展示出来页面。
cookie： 用来保存用户的个人信息，cookie是保存在服务器的。如果第一次到达网址，那么cookie为空，如果100次为空，那么服务器可能就认为是爬虫。通过这个解决反爬虫问题。
在这里插入图片描述