python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑

本文介绍如何使用Scrapy框架搭建并运行一个简单的爬虫项目,包括项目创建、Spider文件生成、运行方式及数据导出等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、打开cmd,进入到项目准备所放在的文件夹,执行命令:

scrapy startproject douban

然后就可以使用pycharm打开项目了
2、建立spider文件
cmd命令行进入到项目的spiders文件夹,执行:
scrapy genspider douban_spider url

scrapy genspider douban_spider movie.douban.com
这里写图片描述
其中 spiderFileName为你所想创建的spider的文件名,url为你准备爬取的服务器域名,如 http://www.abc.com

然后可以在pycharm中进行编写了,如果没有新建的文件,就同步一下项目(项目名右键)
这里写图片描述
3、命令行中运行(spiders目录下):
scrapy crawl spiderName
其中,spiderName为 你建立的spiderFileName.py文件 中 name的值,默认与spiderFileName相同

4、在pycharm中直接运行项目:
可以在setting.py同目录下新建一个main.py文件,内容为:
这里写图片描述

  1. from scrapy import cmdline
  2. cmdline.execute(‘scrapy crawl douban_spider’.split())

    后续在pycharm中需要运行项目时,只需要运行此文件即可
    5、将爬到的数据存储到文件中,比如 test.json或test.csv或其它,在spiders文件夹下执行cmd指令:

    1. scrapy crawl spiderName -o test.json

      这里写图片描述
      这里写图片描述
      可以在spiders目录下看到一个test.json文件,文件编码utf-8,如果用Excel打开csv文件为乱码,可以使用文本编辑器修改编码为utf-8(bom)即可
      6、将爬到的数据存储到mongo数据库
      mongodb GUI管理工具下载
      这里写图片描述

      评论
      添加红包

      请填写红包祝福语或标题

      红包个数最小为10个

      红包金额最低5元

      当前余额3.43前往充值 >
      需支付:10.00
      成就一亿技术人!
      领取后你会自动成为博主和红包主的粉丝 规则
      hope_wisdom
      发出的红包
      实付
      使用余额支付
      点击重新获取
      扫码支付
      钱包余额 0

      抵扣说明:

      1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
      2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

      余额充值