提示:当我们遇到不会的知识点时,我们一定要勤于动手,多在浏览器上面搜索用法
前言
随着网络的不断发展,爬虫这门技术也越来越重要,很多人都开启了学习爬虫学习,本文就介绍了爬虫的两个库去爬取网站上面的图库。
一、requests,pyquery是什么?
大致来说,requests就是获取网页的url和相关网页信息,pyquery就是给了CSS选择器的一些方法来获取网页节点
二、使用步骤
1.引入库
#1,分析url #2,先找出主页面的url,在提取子页面的url #3,导入需要的库 import requests from pyquery import PyQuery #使用css选择器来爬取
2.爬取图片
代码如下:(可以直接复制运行)(前提是pycharm要有img文件夹)
url='http://www.bizhi360.com/meinv/index.html' #壁纸url res=requests.get(url) pic=PyQuery(requests.get(url).content) #实例化一个PyQuery对象 url_pic=pic('.pic-list ul li a') #爬取该节点下的a节点 urls=[item.attr('href') for item in url_pic.items()] #利用列表解析式来把主url的后半段放到同一个列表里面 print(urls) main_url='http://www.bizhi360.com/' #主url for url in urls: #在url进行遍历 join_url=main_url+url #拼接新的url #print(join_url) new_page=PyQuery(requests.get(join_url).content) for i in new_page('.article figure a').items(): i_web=i.attr('href') #爬取到子页面的jpg图片格式 i_res=requests.get(i_web) i_name=i_web.split('/')[-1] #给每一个图片取名字 with open("img/"+i_name,'wb') as f: f.write(i_res.content) #保存到pycharm名为img文件目录下
下面是图片展示
#爬取的部分图片如上