爬虫

什么是爬虫:
请求网站并提取数据的自动化程序。

基本流程:
1.发起请求:web前端与后端如何交互,就是靠请求。
2获取相应内容
3解析内容:常用正则表达式,得到的内容可能是HTML。如何在众多标签里面的到数据。字典与json的格式是一样的,
4.保存数据

什么是request 和response?
请求和响应

网络三次握手
request包含什么》
1.请求方式:GET:从服务器端拿数据,get请求会写在URL上面。
post:从我这里给服务器数据,服务器用来新增数据,用户注册。后台新增数据
put:更新数据
delete:删除数据
options:
2.请求URL
3,请求头、、、、、、、、、、、、、、、;用户认证的信息。Cookies:身份信息。
4.请求体:body

response:
1.请求方式:
2,请求URL
3.请求头
4,请求体
5.option请求:
192.168.0.1----》192.168.2.1,中间需要options才可以传入。

1.响应状态:200成功,301跳转404找不到网页,502服务器错误
2.响应头:
3.响应体

爬虫与反爬虫
爬虫是类似浏览器的爬取
反爬可以设置为只认浏览器。

可以抓取什么:
图片,可以下载
视频
网页文本
只要是请求到的都可以抓取

如何解析:
1.直接处理
2.json解析
3.正则表达式
4.beautifulsoup
5.pyquery
6.xpath

怎样解决JavaScript渲染的问题:

怎样保存数据:
文本
关系型数据库
费关系型数据库
二进制文件:图片视频

前端数据格式与后端接收数据格式相同。
返回:可以点预览,在f12里面
点第三个响应

流程框架:
1.抓取第一页:请求第一页的URL并得到源代码
2.获取内容和下载:分析源代码,提取首页内容,获得下一页的链接。
3.翻页爬取。
4.保存数据

想爬什么?

你可以进行各种分析。只要你有能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值