
爬虫
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库爬取(post请求)拉勾网,并存入json文件
requests爬取拉钩网首先还是老样子,打开拉勾网的网址,先进行一波分析查看网页源代码搜索,第一个职位名称大数据开发工程师,发现不在源码里这时我们就要利用开发者工具在找接口找到接口发现数据都存在该接口里,且发现请求为post请求,请求所需要data也找到了,大概可以猜测pn就是这个职位的页数,所以我们的翻页操作就可以靠改变pn的值来实现,kd就是我们搜索的职位,我们可以通过改变它的值从而达到搜索其他职位信息的操作。明确目标之后我们就可以来写代码了:完整代码如下:import requ原创 2020-11-26 15:10:22 · 970 阅读 · 0 评论 -
requests库(正则提取)爬取千图网
request库(正则提取)爬取千图网首先分析网页结构打开千图网的网址搜索春节打开网页源代码,发现跳转链接存在网页源代码里接下来我们就利用正则表达式去提取正则表达式最主要的就是找到你想要信息的标识符,例如上图,一页图片36 张,我们利用stats-point=“1121”>找到的也是36个,所以正则表达式就很好写了。代码如下:baseurllist=re.findall('stats-point="1121"><a href="(.*?)" target="_blank" d原创 2020-11-25 10:41:30 · 881 阅读 · 1 评论 -
requests库爬取汽车之家(get请求)并存入csv文件
request库爬取汽车之家(get请求)首先分析网页结构查看网页源代码发现标题,图片url,福利和购买跳转链接id都在源码里有:所以对于标题,福利,和图片url都在标签里,我们可以用xpath进行提取,而购买跳转链接id在json形式的字符串里,所以我们用正则表达式提取代码如下:title=etree.HTML(req.text).xpath('//*[@id="list"]/ul/li[1]/a/div[4]/text()')newtitle=title[0].replace('\r\原创 2020-11-24 16:49:56 · 1434 阅读 · 2 评论 -
urllib库爬取拍信创意图片(post请求)json传参
urllib库爬取拍信创意图片解决urllib库遇到Request payload传参问题分析网页:找到接口:发现图片数据都是以json格式存储在这个接口里我们在来看接口所需要的data,这里的searchQuery参数就是我们搜索的值,所以我们可以改变它,从而爬取更多类型的图片,page就是页码,size就是每页的图片数。明确目标后,我们就可以开始写代码了代码如下:#url就是接口上的urlurl='https://api2.paixin.com/medias/1/search?p原创 2020-11-23 16:52:47 · 926 阅读 · 0 评论 -
urllib库爬取51job(get请求)
urllib库爬取51job首先打开51job网页,分析网页结构,发现自己想要的字段全部在网页源码里,以json格式存储,且编码为‘gbk’所以我们要通过正则表达式把它提取出来代码如下:url='https://search.51job.com/list/190200%252c040000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&原创 2020-11-20 11:36:38 · 432 阅读 · 3 评论