一、安装依赖库
1、安装Twisted,下载你系统对应的.whl文件
https://www.lfd.uci.edu/~gohlke/pythonlibs/
C:\Users\bj\Desktop>pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
Requirement already satisfied: Twisted==18.9.0 from file:///C:/Users/bj/Desktop/Twisted-18.9.0-cp36-cp36m-win_amd64.whl
2、安装lxml
pip install lxml
3、安装scrapy
pip install scrapy
二、安装vs2015
参考https://blog.youkuaiyun.com/quxiaoxia1986/article/details/52352114/
三、运行scrapy
C:\Users\bj\Desktop>scrapy -h
Scrapy 1.5.1 - no active project
Usage:
scrapy <command> [options] [args]
四、一些常用的命令
--bench
--fetch
--genspider
--runspider
--settings
--shell
--startproject
--version
--view
1、fetch命令
C:\Users\bj\Desktop>scrapy fetch "https://www.baidu.com" --nolog
<!DOCTYPE html>
<!--STATUS OK--><html>.......</html>
2、runspider命令
用notepad++在桌面新建文件first_spider.py,输入以下脚本:
from scrapy.spider import Spider
class FirstSpider(Spider):
name="first"
allowed_domains=["baidu.com"]
start_urls=["http://www.baidu.com",]
def parse(self,response):
pass
C:\Users\bj\Desktop>scrapy runspider first_spider.py
运行成功
3、创建项目
scrap startproject
4、显示爬虫模板
scrap genspider -l
5、创建爬虫文件
scrap genspider -t spiderName basic/... 域名/baidu.com
6、测试爬虫
scrap check spiderName
7、运行爬虫文件
scrap crawl spiderName
8、查看当前项目所有爬虫文件
scrapy list
9、编辑爬虫文件(只能在linux上运行)
scrap edit spiderName
10、指定某个爬虫文件
scrapy parse spiderName