一.准备工作
首先下载scrapy源代码:git clone https://github.com/scrapy/scrapy.git
自此开始根据源码中的要求来配置环境,这里我们定义下载的源码根项目叫做comScrapy,然后打开comScrapy/setup.py查看:
python_requires(这里要求python版本是
>=2.7, !=3.0.*, !=3.1.*, !=3.2.*, !=3.3.*
),
install_requires(需要安装的依赖是
'Twisted>=13.1.0', 'w3lib>=1.17.0', 'queuelib', 'lxml', 'pyOpenSSL', 'cssselect>=0.9', 'six>=1.5.2', 'parsel>=1.4', 'PyDispatcher>=2.0.5', 'service_identity',
)俩项配置,其他配置根据我github的源码解析翻译自行理解,暂时没什么特别重要的需要了解。
二.编译版本官方文档
这一步假设你已经完成第一步环境安装了,有可用的python环境(哦,对了pip当然要安装好的哟,么么大),进入comScrapy,执行 pip install Sphinx,安装sphinx工具是为了编译rst文档文件成html文件。
安装成功后进入comScrapy/docs,执行 sphinx-build -b html docs build,这个指令的意思是将docs下的rst文件编译成build目录下的html文件。
编译成功后,可以看到多了一个build目录,进去发现里面大多都是html文件,这其实就是一个web目录了,如果你是在windows环境下,可以直接点击index.html通过浏览器的查看这些文档。如果你是linux环境的话,貌似不能直接点击打开了(应该设置一下也可以直接打开,还是我的姿势不对吧),我这里直接把文件目录放到了nginx的web目录www下来访问了。
说道这里有人站出来要BB我了,说国内有scrapy的中文文档,地址:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html,对,你说得没错,我这么自己编译看起来很蠢。但其实不然,我编译的都是最新的官方同步的可靠的scrapy文档,而这个中翻网站并不能做到这么同步,并且中英翻译有小误差或者有小改动没有同步都是有可能的,所以为了与国际接轨,我觉得这么做还是有意义的!(对不对!双击6666)
三.切割scrapy源码模块
将comScrapy/scrapy目录下的内容或者连同目录单独分割出来,因为这才是scrapy的真正源代码,其余的都是绿叶(安装,检测,校验之类的),以后我们就在这个scrapy目录来进行操作了,项目就是这个scrapy目录。
四.github地址
https://github.com/wangrenlei/debug_scrapy
结束!(下期要关注我哦,爱你么么大-。-)