- 博客(6)
- 收藏
- 关注
原创 requests库爬取(post请求)拉勾网,并存入json文件
requests爬取拉钩网首先还是老样子,打开拉勾网的网址,先进行一波分析查看网页源代码搜索,第一个职位名称大数据开发工程师,发现不在源码里这时我们就要利用开发者工具在找接口找到接口发现数据都存在该接口里,且发现请求为post请求,请求所需要data也找到了,大概可以猜测pn就是这个职位的页数,所以我们的翻页操作就可以靠改变pn的值来实现,kd就是我们搜索的职位,我们可以通过改变它的值从而达到搜索其他职位信息的操作。明确目标之后我们就可以来写代码了:完整代码如下:import requ
2020-11-26 15:10:22
961
原创 关于pymysql的用法
文章目录关于pymysql的安装及用法一、安装pymysql二、数据库的连接三、增加数据四、查询数据五、删除和更新关于pymysql的安装及用法pymysql主要的用法就分为四步:1.建立连接2.获取游标3.执行sql语句4.关闭连接,游标所以后面我们就围绕这4步来进行一、安装pymysql直接打开cmd输入下面这行代码就好了pip install pymysql二、数据库的连接连接数据库前,请先确认以下事项:1.您已经创建了数据库2.在创建的数据库里创建了表且有字段确认好了
2020-11-26 11:10:04
2049
原创 requests库(正则提取)爬取千图网
request库(正则提取)爬取千图网首先分析网页结构打开千图网的网址搜索春节打开网页源代码,发现跳转链接存在网页源代码里接下来我们就利用正则表达式去提取正则表达式最主要的就是找到你想要信息的标识符,例如上图,一页图片36 张,我们利用stats-point=“1121”>找到的也是36个,所以正则表达式就很好写了。代码如下:baseurllist=re.findall('stats-point="1121"><a href="(.*?)" target="_blank" d
2020-11-25 10:41:30
858
1
原创 requests库爬取汽车之家(get请求)并存入csv文件
request库爬取汽车之家(get请求)首先分析网页结构查看网页源代码发现标题,图片url,福利和购买跳转链接id都在源码里有:所以对于标题,福利,和图片url都在标签里,我们可以用xpath进行提取,而购买跳转链接id在json形式的字符串里,所以我们用正则表达式提取代码如下:title=etree.HTML(req.text).xpath('//*[@id="list"]/ul/li[1]/a/div[4]/text()')newtitle=title[0].replace('\r\
2020-11-24 16:49:56
1415
2
原创 urllib库爬取拍信创意图片(post请求)json传参
urllib库爬取拍信创意图片解决urllib库遇到Request payload传参问题分析网页:找到接口:发现图片数据都是以json格式存储在这个接口里我们在来看接口所需要的data,这里的searchQuery参数就是我们搜索的值,所以我们可以改变它,从而爬取更多类型的图片,page就是页码,size就是每页的图片数。明确目标后,我们就可以开始写代码了代码如下:#url就是接口上的urlurl='https://api2.paixin.com/medias/1/search?p
2020-11-23 16:52:47
913
原创 urllib库爬取51job(get请求)
urllib库爬取51job首先打开51job网页,分析网页结构,发现自己想要的字段全部在网页源码里,以json格式存储,且编码为‘gbk’所以我们要通过正则表达式把它提取出来代码如下:url='https://search.51job.com/list/190200%252c040000,000000,0000,00,9,99,%25E5%25A4%25A7%25E6%2595%25B0%25E6%258D%25AE,2,{}.html?lang=c&postchannel=0000&
2020-11-20 11:36:38
414
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人