安装scrapy
- 新建虚拟环境article_spider
- 安装scrapy
安装报错:
error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-tools
1
解决方法:
-
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下载twisted对应版本的whl文件
-
Twisted‑17.5.0‑cp35‑cp35m‑win_amd64.whl),cp后面是python版本,amd64代表64位,运行
-
pip install C:\Users\Twisted-17.5.0-cp35-cp35m-win_amd64.whl
安装完成后运行:
pip install -i https://pypi.douban.com/simple/ scrapy
新建scrapy项目
- 1. 运行如下命令:
scrapy startproject ArticleSpider
完整:
(article_spider) C:\Users\Administrator\Evns\projects>scrapy startproject ArticleSpider
-
2. 通过pycharm把项目导入进来
pipelines.py:数据存储
middlewares.py:中间件
items.py: 类似于django中的form,定义数据保存的格式
spiders文件:存放具体某个网站的爬虫
cd ArticleSpider
scrapy genspider (spider名称)jobbole (网站域名)blog.jobbole.com
jobbole.py
- start_urls : 是一个list,存放需要爬取的所有url。
启动一个scrapy命令
- 安装pywin32
pip install -i https://pypi.douban.com/simple pypiwin32
然后启动:
scrapy crawl jobbole
在main.py中配置进来:
execute(["scrapy", "crawl", "jobbole"])
开始调试
- 在setting.py中:
默认遵循robots协议:
网络爬虫排除标准 : (告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取)
不设置的话,会默认去读取每一个网站上的robots协议,把不符合robots协议的过滤掉。
ROBOTSTXT_OBEY = False
3553

被折叠的 条评论
为什么被折叠?



