Python爬虫小试——爬取图片

最新推荐文章于 2024-06-29 22:34:46 发布

原创最新推荐文章于 2024-06-29 22:34:46 发布 · 769 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

Python 专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何使用Python的requests和BeautifulSoup库从网页中抓取图片，并保存到本地目录。首先，通过requests获取网页源代码，然后利用BeautifulSoup解析源码，找出所有img标签并获取src属性，最后下载图片并存储。

如果是直接装了Anaconda集成开发环境的，就可以直接移步源码了

否则的话，在爬取图片之前要安装几个包

第一个：`bs4`包，需要用到其中的BeautifulSoap，是一个功能强大的网页解析工具

pip3 install bs4

第二个：`requests`包，安装步骤如上，用于抓取网页源代码

代码如下:

import requests,os
from bs4 import BeautifulSoup
from urllib.request import urlopen

images_dir = "images/"      #要存储的文件夹
if not os.path.exists(images_dir):     
    os.mkdir(images_dir)
url = "http://www.baidu.com/"    #url
html = requests.get(url)             #获取html文本
html.encoding = 'utf-8'              #编码格式utf-8
sp = BeautifulSoup(html.text,'html.parser') #源码解析
links = sp.find_all(["img",'a'])     #找出所有img标签
index = 0
for link in links:
    src = link.get('src')           #获取src
    if src != None and 'https' in src:  #非空src
        if 'jpg' in src:
            img_name = str(index+1) + ".jpg"
        elif 'png' in src:
            img_name = str(index+1) + ".png"        
        image = urlopen(src)          #url open
        f = open(os.path.join(images_dir,img_name),"wb")  #创建文件
        f.write(image.read())      #写入图片
        f.close()
        print('%d finish\n'%(index+1))
        index = index + 1
print("OK")