Scrapy爬虫爬取豆瓣TOP250

最新推荐文章于 2025-03-01 15:06:50 发布

数据攻城小狮子

最新推荐文章于 2025-03-01 15:06:50 发布

阅读量2.3k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： Python学习文章标签： xpath

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/weixin_46322367/article/details/117573610

Python学习专栏收录该内容

44 篇文章

订阅专栏

本文详细指导如何使用Scrapy框架爬取豆瓣电影Top250的电影信息，并解决爬取结果不按顺序的问题，涉及spider、items和settings的修改

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Scrapy爬虫框架爬取豆瓣电影TOP250

分析网页

第一页
start=0

在这里插入图片描述

第二页
start=25

在这里插入图片描述

最后一页
start=225

在这里插入图片描述
可以看出网页的网址是有规律的

创建Scrapy爬虫框架

C:\Users\dell>cd Desktop\python_test\
C:\Users\dell\Desktop\python_test>scrapy startproject dbmovie
C:\Users\dell\Desktop\python_test>cd dbmovie\dbmovie
C:\Users\dell\Desktop\python_test\dbmovie\dbmovie>scrapy genspider dbmovie_spider movie.douban.com

修改spider脚本

import scrapy
from dbmovie.items import DoubanItem

class DbmovieSpiderSpider(scrapy.Spider):
    name = 'dbmovie_spider'
    allowed_domains = ['movie.douban.com/top250']
    list=[]
    for page in range(0,226,25):
        url='start='+str(page)+'&filter='
        start_urls='https://movie.douban.com/top250?'+url
        list.append(start_urls)
    start_urls = list

    def parse(self, response):
        item=DoubanItem()
        movies=response.xpath('//ol[@class="grid_view"]/li')
        for movie in movies:
            item['ranking']=movie.xpath('.//div[@class="star"]/span[4]/text()').extract()[0]
            item['movie_name']=movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[0]
            item['score']=movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0]
            item['describe']=movie.xpath('.//span[@class="inq"]/text()').extract()
            yield item

修改items脚本

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
   
    # 评论人数
    ranking=scrapy.Field()
    # 电影名称
    movie_name=scrapy.Field()
    # 评分
    score=scrapy.Field()
    # 电影描述
    describe=scrapy.Field()

修改settings脚本

修改内容

DEFAULT_REQUEST_HEADERS = {
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
   'Accept-Language': 'en',
   'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36'
}
FEED_URL="douban.csv"
FEED_FORMAT='csv'
FEED_EXPORT_ENCODING="gbk"

运行

在命令行输入

# 指定保存文件名或目录
scrapy crawl dbmovie_spider -o douban.csv

可以看到爬取结果并不是按照顺序排列的
大家可以尝试如何爬取带顺序的结果
在这里插入图片描述