开发使用 scrapy框架、pycharm工具、课程来源imooc大壮老师的项目开发
1、环境搭建
1.1 pip install scrapy 或者 下载scrapy再安装
1.2 pycharm 工具安装
2、scrapy项目生成
scrapy startproject 项目名称 。
可能存在问题:scrapy没有加入环境变量导致无法调用。
最初的项目构成是
items.py
middlewares.py
pipelines.py
settings.py
spiders
__init__.py
__pycache__
3、项目开发
主要编写的文件有:3.1 项目名_spider.py (编写处理方法等) 3.2items.py(编写数据结构)
main.py :
from scrapy import cmdline
cmdline.execute('scrapy crawl douban_spider'.split())
#在python文件中执行cmd命令
items.py
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
#抓取目标在这里定义,然后在douban_spider文件中进一步进行编写
import scrapy
class DoubanItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#序号
serial_number = scrapy.Field()
#电影名称
movie_name=scrapy.Field()
#电影的介绍
introduce = scrapy.Field()
#星级
star = scrapy.Field()
#电影评论
evaluate = scrapy.Field()
#电影描述
describe = scrapy.Field()
pass
项目名_spider.py 主要代码在这里编写
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
#抓取目标在这里定义,然后在douban_spider文件中进一步进行编写
import scrapy
class DoubanItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#序号
serial_number = scrapy.Field()
#电影名称
movie_name=scrapy.Field()
#电影的介绍
introduce = scrapy.Field()
#星级
star = scrapy.Field()
#电影评论
evaluate = scrapy.Field()
#电影描述
describe = scrapy.Field()
pass
数据导出,cmd 或者 ssl中
输入scrapy crawl qiuzhi_spider -o text.json
或者其他格式