
urllib
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库爬取(post请求)拉勾网,并存入json文件
requests爬取拉钩网首先还是老样子,打开拉勾网的网址,先进行一波分析查看网页源代码搜索,第一个职位名称大数据开发工程师,发现不在源码里这时我们就要利用开发者工具在找接口找到接口发现数据都存在该接口里,且发现请求为post请求,请求所需要data也找到了,大概可以猜测pn就是这个职位的页数,所以我们的翻页操作就可以靠改变pn的值来实现,kd就是我们搜索的职位,我们可以通过改变它的值从而达到搜索其他职位信息的操作。明确目标之后我们就可以来写代码了:完整代码如下:import requ原创 2020-11-26 15:10:22 · 970 阅读 · 0 评论 -
urllib库爬取拍信创意图片(post请求)json传参
urllib库爬取拍信创意图片解决urllib库遇到Request payload传参问题分析网页:找到接口:发现图片数据都是以json格式存储在这个接口里我们在来看接口所需要的data,这里的searchQuery参数就是我们搜索的值,所以我们可以改变它,从而爬取更多类型的图片,page就是页码,size就是每页的图片数。明确目标后,我们就可以开始写代码了代码如下:#url就是接口上的urlurl='https://api2.paixin.com/medias/1/search?p原创 2020-11-23 16:52:47 · 926 阅读 · 0 评论 -
urllib库爬取51job(get请求)
urllib库爬取51job首先打开51job网页,分析网页结构,发现自己想要的字段全部在网页源码里,以json格式存储,且编码为‘gbk’所以我们要通过正则表达式把它提取出来代码如下:url='https://search.51job.com/list/190200%252c040000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&原创 2020-11-20 11:36:38 · 432 阅读 · 3 评论