从源码开始学习Scrapy系列01-源码整理/分割/文档编译

本文链接：https://blog.youkuaiyun.com/wang1472jian1110/article/details/80280716

一.准备工作

首先下载scrapy源代码：git clone https://github.com/scrapy/scrapy.git

自此开始根据源码中的要求来配置环境，这里我们定义下载的源码根项目叫做comScrapy，然后打开comScrapy/setup.py查看：

python_requires（这里要求python版本是

>=2.7, !=3.0.*, !=3.1.*, !=3.2.*, !=3.3.*

），

install_requires（需要安装的依赖是

'Twisted>=13.1.0',
'w3lib>=1.17.0',
'queuelib',
'lxml',
'pyOpenSSL',
'cssselect>=0.9',
'six>=1.5.2',
'parsel>=1.4',
'PyDispatcher>=2.0.5',
'service_identity',

）俩项配置，其他配置根据我github的源码解析翻译自行理解，暂时没什么特别重要的需要了解。

二.编译版本官方文档

这一步假设你已经完成第一步环境安装了，有可用的python环境（哦，对了pip当然要安装好的哟，么么大），进入comScrapy，执行 pip install Sphinx，安装sphinx工具是为了编译rst文档文件成html文件。

安装成功后进入comScrapy/docs，执行 sphinx-build -b html docs build，这个指令的意思是将docs下的rst文件编译成build目录下的html文件。

编译成功后，可以看到多了一个build目录，进去发现里面大多都是html文件，这其实就是一个web目录了，如果你是在windows环境下，可以直接点击index.html通过浏览器的查看这些文档。如果你是linux环境的话，貌似不能直接点击打开了（应该设置一下也可以直接打开，还是我的姿势不对吧），我这里直接把文件目录放到了nginx的web目录www下来访问了。

说道这里有人站出来要BB我了，说国内有scrapy的中文文档，地址：http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html，对，你说得没错，我这么自己编译看起来很蠢。但其实不然，我编译的都是最新的官方同步的可靠的scrapy文档，而这个中翻网站并不能做到这么同步，并且中英翻译有小误差或者有小改动没有同步都是有可能的，所以为了与国际接轨，我觉得这么做还是有意义的！（对不对！双击6666）