
request库get请求
周攀panda
这个作者很懒,什么都没留下…
展开
-
requests库(正则提取)爬取千图网
request库(正则提取)爬取千图网首先分析网页结构打开千图网的网址搜索春节打开网页源代码,发现跳转链接存在网页源代码里接下来我们就利用正则表达式去提取正则表达式最主要的就是找到你想要信息的标识符,例如上图,一页图片36 张,我们利用stats-point=“1121”>找到的也是36个,所以正则表达式就很好写了。代码如下:baseurllist=re.findall('stats-point="1121"><a href="(.*?)" target="_blank" d原创 2020-11-25 10:41:30 · 881 阅读 · 1 评论 -
requests库爬取汽车之家(get请求)并存入csv文件
request库爬取汽车之家(get请求)首先分析网页结构查看网页源代码发现标题,图片url,福利和购买跳转链接id都在源码里有:所以对于标题,福利,和图片url都在标签里,我们可以用xpath进行提取,而购买跳转链接id在json形式的字符串里,所以我们用正则表达式提取代码如下:title=etree.HTML(req.text).xpath('//*[@id="list"]/ul/li[1]/a/div[4]/text()')newtitle=title[0].replace('\r\原创 2020-11-24 16:49:56 · 1434 阅读 · 2 评论