python爬虫基础篇一

最新推荐文章于 2024-07-14 17:20:08 发布

qq_40960891

最新推荐文章于 2024-07-14 17:20:08 发布

阅读量425

点赞数

CC 4.0 BY-SA版权

分类专栏：网络爬虫入门文章标签： python

本文链接：https://blog.youkuaiyun.com/qq_40960891/article/details/124156640

网络爬虫入门专栏收录该内容

1 篇文章

订阅专栏

本文介绍了Python爬虫的基础知识，包括Python环境的安装、PyCharm的使用，以及Chrome浏览器和开发者工具的配合。文章还探讨了爬虫的实际应用，如搜索引擎，以及HTTP协议的基本概念，如URL解析、请求方法、请求头参数，以及常见的HTTP响应状态码。

python爬虫相关库的安装
1、python安装（3.6版本以上）
下载地址：http://www.python.org
2、安装pycharm(社区版和专业版），社区版是免费的，专业的免费试用1个月
创建项目的方法
3、chrome的安装（可以用360浏览器代替），安装chrome浏览器的驱动（对应相应的版本）

Chrome抓包工具的使用
网页右键检查就可以打开开发者选项
elements：可以帮助分析网页结构，获取数据。网页源代码（从这些代码中提取信息）
console：展示网页打印的信息和错误信息，相当于控制台。
sources:展示网页所有的资源（展示的是个原始的网页），网页加载的所有摁键
network：xhr（ajax请求获取到信息），网络发送的所有请求。

爬虫的简单介绍
爬虫的实际应用：搜索引擎、伯乐在线、惠惠购物助手（chrome浏览器插件）、数据分析、抢票软件等
网络爬虫：模拟人类请求网站的行为

http协议介绍
python写爬虫支持的模块大、支持模块多，相关的http请求和html解释非常丰富。
http协议：HyperText Transfer Protocol超文本传输文件，80端口（https,在http协议次啊添加SSL层，端口443）
url详解Uniform Resource Locator
sheme://host:port/path?query-string=xxxx#anchor
协议：//域名：端口/路径？查询字段=xxx#锚点（前端页面进行定位）
浏览器会对url进行编码，因为url只能识别acii，除了英文，其他都会进行编码。
http常见的请求method：
get:一般只从服务器获取数据，并不会服务器资源进行修改
post：登录，上传文件等，会对服务器资源有影响。爬虫是需要查看具体的请求方法
请求头参数：放在url，放在body，放在headers
user-agent:
referer参数
cookie：用来表示身份
常见的相应状态码：
200：正常
301：永久重定向，域名以后不用
302：临时重定向，没有登录时会跳转到登录界面，就会返回302
404：url错误
403：无权限
500：服务器内部错误