Python使用Scrapy爬取妹子图

最新推荐文章于 2020-06-27 06:44:11 发布

置顶 smile_milk1992

最新推荐文章于 2020-06-27 06:44:11 发布

阅读量3.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 文章标签： python cookie 图片 utf-8 url

本文链接：https://blog.youkuaiyun.com/qq_30175203/article/details/51656876

python 专栏收录该内容

19 篇文章

订阅专栏

本文介绍了使用Python的Scrapy框架爬取妹子图的实践经验，总计获取了8000多张图片。通过分享核心爬虫代码，帮助读者理解爬虫实现过程。项目源代码已上传至GitHub。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python Scrapy爬虫，听说妹子图挺火，我整站爬取了，上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码

          # -*- coding: utf-8 -*-
         
          from 
           scrapy.selector 
          import 
           Selector
         
          import 
           scrapy
         
          from 
           scrapy.contrib.loader 
          import 
           ItemLoader, Identity
         
          from 
           fun.items 
          import 
          MeizituItem
         
          class 
           MeizituSpider(scrapy.Spider):
         
          name 
          = 
          "meizitu"
         
          allowed_domains 
          = 
          [
          "meizitu.com"
          ]
         
          start_urls 
          = 
          (
         
          'http://www.meizitu.com/'
          ,
         
          )
         
          def 
          parse(
          self
          , response):
         
          sel 
          = 
          Selector(response)
         
          for 
          link 
          in 
           sel.xpath(
          '//h2/a/@href'
          ).extract():
         
          request 
          = 
          scrapy.Request(link, callback
          =
          self
          .parse_item)
         
          yield 
          request
         
          pages 
          = 
          sel.xpath(
          "//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href"
          ).extract()
         
          print
          (
          'pages: %s' 
          % 
          pages)
         
          if 
          len
          (pages) > 
          2
          :
         
          page_link 
          = 
          pages[
          -
          2
          ]
         
          page_link 
          = 
          page_link.replace(
          '/a/'
          , '')  
         
          request 
          = 
          scrapy.Request(
          'http://www.meizitu.com/a/%s' 
          % 
          page_link, callback
          =
          self
          .parse)
         
          yield 
          request
         
          def 
          parse_item(
          self
          , response):
         
          l 
          = 
          ItemLoader(item
          =
          MeizituItem(), response
          =
          response)
         
          l.add_xpath(
          'name'
          , 
          '//h2/a/text()'
          )
         
          l.add_xpath(
          'tags'
          , 
          "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p"
          )
         
          l.add_xpath(
          'image_urls'
          , 
          "//div[@id='picture']/p/img/@src"
          , Identity())
         
          l.add_value(
          'url'
          , response.url)
         
          return 
          l.load_item()