pycharm爬虫开发概述

本文介绍了如何使用PyCharm和Scrapy框架进行爬虫开发。首先,通过pip安装或下载Scrapy,然后在PyCharm中配置环境。接着,通过`scrapy startproject`命令创建项目,可能遇到的问题是Scrapy未加入环境变量。项目主要包括items.py、middlewares.py、pipelines.py、settings.py和spiders目录。开发时主要编写项目名_spider.py和items.py,前者用于处理方法,后者定义数据结构。最后,通过命令行运行`scrapy crawl`导出爬取的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开发使用 scrapy框架、pycharm工具、课程来源imooc大壮老师的项目开发

1、环境搭建

1.1 pip install scrapy 或者 下载scrapy再安装

1.2 pycharm 工具安装

 

2、scrapy项目生成

scrapy startproject 项目名称 。  

  可能存在问题:scrapy没有加入环境变量导致无法调用。

最初的项目构成是

items.py

middlewares.py

pipelines.py

settings.py

spiders

__init__.py

__pycache__

 

 

3、项目开发

主要编写的文件有:3.1 项目名_spider.py (编写处理方法等) 3.2items.py(编写数据结构)

 

main.py :

from scrapy import cmdline
cmdline.execute('scrapy crawl douban_spider'.split())

#在python文件中执行cmd命令

items.py 

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
#抓取目标在这里定义,然后在douban_spider文件中进一步进行编写
import scrapy



class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #序号
    serial_number = scrapy.Field()
    #电影名称
    movie_name=scrapy.Field()
    #电影的介绍
    introduce  = scrapy.Field()
    #星级
    star = scrapy.Field()
    #电影评论
    evaluate = scrapy.Field()
    #电影描述
    describe = scrapy.Field()

    pass

 项目名_spider.py 主要代码在这里编写

​
# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
#抓取目标在这里定义,然后在douban_spider文件中进一步进行编写
import scrapy



class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #序号
    serial_number = scrapy.Field()
    #电影名称
    movie_name=scrapy.Field()
    #电影的介绍
    introduce  = scrapy.Field()
    #星级
    star = scrapy.Field()
    #电影评论
    evaluate = scrapy.Field()
    #电影描述
    describe = scrapy.Field()

    pass

​

数据导出,cmd 或者 ssl中

输入scrapy crawl qiuzhi_spider -o text.json 

或者其他格式

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值