什么是爬虫:
请求网站并提取数据的自动化程序。
基本流程:
1.发起请求:web前端与后端如何交互,就是靠请求。
2获取相应内容
3解析内容:常用正则表达式,得到的内容可能是HTML。如何在众多标签里面的到数据。字典与json的格式是一样的,
4.保存数据
什么是request 和response?
请求和响应
网络三次握手
request包含什么》
1.请求方式:GET:从服务器端拿数据,get请求会写在URL上面。
post:从我这里给服务器数据,服务器用来新增数据,用户注册。后台新增数据
put:更新数据
delete:删除数据
options:
2.请求URL
3,请求头、、、、、、、、、、、、、、、;用户认证的信息。Cookies:身份信息。
4.请求体:body
response:
1.请求方式:
2,请求URL
3.请求头
4,请求体
5.option请求:
192.168.0.1----》192.168.2.1,中间需要options才可以传入。
1.响应状态:200成功,301跳转404找不到网页,502服务器错误
2.响应头:
3.响应体
爬虫与反爬虫
爬虫是类似浏览器的爬取
反爬可以设置为只认浏览器。
可以抓取什么:
图片,可以下载
视频
网页文本
只要是请求到的都可以抓取
如何解析:
1.直接处理
2.json解析
3.正则表达式
4.beautifulsoup
5.pyquery
6.xpath
怎样解决JavaScript渲染的问题:
怎样保存数据:
文本
关系型数据库
费关系型数据库
二进制文件:图片视频
前端数据格式与后端接收数据格式相同。
返回:可以点预览,在f12里面
点第三个响应
流程框架:
1.抓取第一页:请求第一页的URL并得到源代码
2.获取内容和下载:分析源代码,提取首页内容,获得下一页的链接。
3.翻页爬取。
4.保存数据
想爬什么?
你可以进行各种分析。只要你有能力。