第一个爬虫脚本

最新推荐文章于 2025-07-04 17:30:54 发布

原创最新推荐文章于 2025-07-04 17:30:54 发布 · 4.2k 阅读

2 ·

CC 4.0 BY-SA版权

转载请注明博主个人博客地址：https://lijianxun.top | 本文为博主的原创文章，如果帮到您请在下方点赞。

文章标签：

#爬虫 #url #脚本

python脚本专栏收录该内容

10 篇文章

订阅专栏

本文分享了一个简单的爬虫脚本实现过程，该脚本能从指定网站抓取图片并保存到本地。通过分析HTML标签，利用正则表达式匹配图片链接，实现了基本的多页图片抓取功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这是制作的第一个爬虫脚本，主要实现的功能就是解析指定网站中指定的照片地址，然后保存到本地。

代码部分：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

i = 0
def get_content(page):
    global i
    page = str(page)
    url = "网站地址?page=" + page #保证可以获取多页内容
    html = urlopen(url)
    bsObj = BeautifulSoup(html, "html.parser")
    images = bsObj.findAll("img", {"src": re.compile("\d+\.jpg")}) #使用正则把图片的URL筛选出来

    while i < 5: #i是页数
        for image in images: #使用for循环抓取不同页数的图片
            photo_url = "网站的绝对地址" + image["src"] #图片地址
            print(photo_url) #输出图片地址
            f = open(str(re.sub(r"\D+", "0", image["src"])) + ".jpg", "wb")  # 利用正则替换命名图片名称，并保存到当前文件夹
            req = urlopen(photo_url)
            buf = req.read()  # 读出文件
            f.write(buf)  # 写入文件
            print("正在下载中...")
        i = i + 1
        print ("这是第", i, "页")
        get_content(i) #进行下一页的抓取

get_content(i)