python制作简单的爬虫

最新推荐文章于 2025-03-12 20:13:01 发布

原创最新推荐文章于 2025-03-12 20:13:01 发布 · 970 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #url #html #函数

python_spider 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一款简单爬虫的实现过程，该爬虫能够从指定网站抓取图片资源并保存到本地。通过解析网页源码，提取图片链接，并使用Python标准库完成下载任务。

该爬虫只是简单的爬取了一个小网站上的图片：


# encoding:utf-8
import urllib
import re
import os
#该函数传入URL获得该url所对应的html源代码
def gethtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html
#该函数传入html源码，返回源码中的图片链接list
def getimagesurl(html):
    reg = 'src="(http://.*?\.jpg)"'
    imageurllist = re.findall(reg,html)
    return imageurllist


#根据文件名创建文件
def createFileWithFileName(localPathParam,fileName):
    totalPath=localPathParam+'\\'+fileName
    if not os.path.exists(totalPath):
        file=open(totalPath,'a+')
        file.close()
        return totalPath
#传入image连接的list将图片存到本地文件
def saveimages(imageurllist):
    name = 0
    for imageurl in imageurllist:
        print imageurl
        #urllib.urlretrieve('E:\\tupian','{}.jpg'.format(name))
        localPath = 'E:\\tupian'
        urllib.urlretrieve(imageurl,createFileWithFileName(localPath,'{}.jpg'.format(name)))
        name+=1

#这里是代码的入口
html = gethtml("http://www.ivsky.com/tupian/ziranfengguang")
imageurllist = getimagesurl(html)
saveimages(imageurllist)