使用scrapy爬取整站图片

最新推荐文章于 2024-08-03 15:09:21 发布

转载最新推荐文章于 2024-08-03 15:09:21 发布 · 4.1k 阅读

本文介绍如何利用Scrapy框架快速实现图片抓取，包括创建项目、编写爬虫代码、配置图片管道以及设置相关参数。通过简单的几行代码即可完成图片爬虫的搭建。

scrapy是简单易用的爬虫框架，python语言实现。具体去官网看看吧：http://scrapy.org/

之前想抓一些图片制作拼贴马赛克（见拼贴马赛克算法），没有找到顺手的爬虫软件，就自己diy一个。使用scrapy抓取非常简单，因为它居然内置了图片抓取的管道 ImagesPipeline。简单到几行代码就可以搞定一个图片爬虫。

scrapy的使用更ruby有点儿类似，创建一个project，然后框架就有了，只要在相应的文件中填写自己的内容就ok了。

spider文件中添加爬取代码:

 
   
        <
        /
        p> <p>
        class 
         ImageDownloaderSpider(CrawlSpider):<br>name 
        = 
         "image_downloader"
        <br>allowed_domains 
        = 
         [
        "sina.com.cn"
        ]<br>start_urls 
        = 
         [<br>
        "http://www.sina.com.cn/"
        <br>]<br>rules 
        = 
         [Rule(SgmlLinkExtractor(allow
        =
        []), 
        'parse_item'
        )]<
        /
        p> <p>
        def 
         parse_item(
        self
        , response):<br>
        self
        .log(
        'page: %s' 
         % 
         response.url)<br>hxs 
        = 
         HtmlXPathSelector(response)<br>images 
        = 
         hxs.select(
        '//img/@src'
        ).extract()<br>items 
        = 
         []<br>
        for 
         image 
        in 
         images:<br>item 
        = 
         ImageDownloaderItem()<br>item[
        'image_urls'
        ]
        =
        [image]<br>items.append(item)<br>
        return 
         items<
        /
        p> <p>
       
 
 

item中添加字段:

 
   
        <
        /
        p> <p>
        class 
         ImageDownloaderItem(Item):<br>image_urls 
        = 
         Field()<br>images 
        = 
         Field()<
        /
        p> <p>
       
 
 

pipelines中过滤并保存图片：

 
   
        <
        /
        p> <p>
        class 
         ImageDownloaderPipeline(ImagesPipeline):<
        /
        p> <p>
        def 
         get_media_requests(
        self
        , item, info):<br>
        for 
         image_url 
        in 
         item[
        'image_urls'
        ]:<br>
        yield 
         Request(image_url)<
        /
        p> <p>
        def 
         item_completed(
        self
        , results, item, info):<br>image_paths 
        = 
         [x[
        'path'
        ] 
        for 
         ok, x 
        in 
         results 
        if 
         ok]<br>
        if 
         not 
         image_paths:<br>
        raise 
         DropItem(
        "Item contains no images"
        )<br>
        return 
         item<
        /
        p> <p>
       
 
 

settings文件中添加project和图片过滤设置:

 
   
        <
        /
        p> <p>IMAGES_MIN_HEIGHT 
        = 
         50
        <br>IMAGES_MIN_WIDTH 
        = 
         50
        <br>IMAGES_STORE 
        = 
         'image-downloaded/'
        <br>DOWNLOAD_TIMEOUT 
        = 
         1200
        <br>ITEM_PIPELINES 
        = 
         [
        '<a href="http://lzhj.me/archives/tag/scrapy" class="st_tag internal_tag" rel="tag" title="Posts tagged with scrapy">scrapy</a>.contrib.pipeline.images.ImagesPipeline'
        ,<br>
        'image_downloader.pipelines.ImageDownloaderPipeline'
        ]<
        /
        p> <p>