用爬虫爬取网页图片壁纸

小飞努力学习～

已于 2022-07-06 22:20:27 修改

阅读量564

点赞数 1

分类专栏：爬虫文章标签：爬虫

于 2022-07-06 21:51:35 首次发布

本文链接：https://blog.youkuaiyun.com/m0_63668906/article/details/125648366

版权

爬虫专栏收录该内容

3 篇文章

订阅专栏

提示：当我们遇到不会的知识点时，我们一定要勤于动手，多在浏览器上面搜索用法

文章目录

前言
一、requests and pyquery
二、使用步骤
- 1.引入库
- 2,爬取数据

前言

随着网络的不断发展，爬虫这门技术也越来越重要，很多人都开启了学习爬虫学习，本文就介绍了爬虫的两个库去爬取网站上面的图库。

一、requests,pyquery是什么？

大致来说，requests就是获取网页的url和相关网页信息，pyquery就是给了CSS选择器的一些方法来获取网页节点

二、使用步骤

1.引入库

#1,分析url
#2，先找出主页面的url，在提取子页面的url
#3,导入需要的库
import requests
from pyquery import PyQuery     #使用css选择器来爬取

2.爬取图片

代码如下：（可以直接复制运行）（前提是pycharm要有img文件夹）

url='http://www.bizhi360.com/meinv/index.html'   #壁纸url
res=requests.get(url)
pic=PyQuery(requests.get(url).content)    #实例化一个PyQuery对象
url_pic=pic('.pic-list ul li a')  #爬取该节点下的a节点
urls=[item.attr('href') for item in url_pic.items()]   #利用列表解析式来把主url的后半段放到同一个列表里面
print(urls)
main_url='http://www.bizhi360.com/'   #主url
for url in urls:          #在url进行遍历
    join_url=main_url+url     #拼接新的url
    #print(join_url)
    new_page=PyQuery(requests.get(join_url).content)
    for i in new_page('.article figure a').items():
        i_web=i.attr('href')           #爬取到子页面的jpg图片格式
        i_res=requests.get(i_web)
        i_name=i_web.split('/')[-1]     #给每一个图片取名字
        with open("img/"+i_name,'wb') as f:
            f.write(i_res.content)        #保存到pycharm名为img文件目录下

下面是图片展示