1.request模块
--urllib模块,古老的模块,封装的方法比较麻烦
--requests模块
request模块:python中原生的一款基于网网络请求的模块,功能非常强大,简单便捷,效率极高。
作用:模拟浏览器发请求
如何使用:(requests模块的编码流程)
1.指定url
2.发起请求
3.获取相应数据
4.持久化存储
实战编码:
需求:爬取搜狗首页的页面数据
2.UA:User-Agent(请求载体的身份标识)
UA检测:门户网站的服务器会检测对应请求的载体身份标识,如果经检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求。
UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
实战编码:requests实战之网页采集器
3.post请求
post请求和get请求的区别
JSON数据:什么是JSON数据格式?_什么是json格式-优快云博客