从源码开始学习Scrapy系列01-源码整理/分割/文档编译

一.准备工作

首先下载scrapy源代码:git clone https://github.com/scrapy/scrapy.git

自此开始根据源码中的要求来配置环境,这里我们定义下载的源码根项目叫做comScrapy,然后打开comScrapy/setup.py查看:

python_requires(这里要求python版本是

>=2.7, !=3.0.*, !=3.1.*, !=3.2.*, !=3.3.*

),

install_requires(需要安装的依赖是

'Twisted>=13.1.0',
'w3lib>=1.17.0',
'queuelib',
'lxml',
'pyOpenSSL',
'cssselect>=0.9',
'six>=1.5.2',
'parsel>=1.4',
'PyDispatcher>=2.0.5',
'service_identity',

)俩项配置,其他配置根据我github的源码解析翻译自行理解,暂时没什么特别重要的需要了解。

二.编译版本官方文档

这一步假设你已经完成第一步环境安装了,有可用的python环境(哦,对了pip当然要安装好的哟,么么大),进入comScrapy,执行 pip install Sphinx,安装sphinx工具是为了编译rst文档文件成html文件。

安装成功后进入comScrapy/docs,执行 sphinx-build -b html docs build,这个指令的意思是将docs下的rst文件编译成build目录下的html文件。

编译成功后,可以看到多了一个build目录,进去发现里面大多都是html文件,这其实就是一个web目录了,如果你是在windows环境下,可以直接点击index.html通过浏览器的查看这些文档。如果你是linux环境的话,貌似不能直接点击打开了(应该设置一下也可以直接打开,还是我的姿势不对吧),我这里直接把文件目录放到了nginx的web目录www下来访问了。

说道这里有人站出来要BB我了,说国内有scrapy的中文文档,地址:http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html,对,你说得没错,我这么自己编译看起来很蠢。但其实不然,我编译的都是最新的官方同步的可靠的scrapy文档,而这个中翻网站并不能做到这么同步,并且中英翻译有小误差或者有小改动没有同步都是有可能的,所以为了与国际接轨,我觉得这么做还是有意义的!(对不对!双击6666)

三.切割scrapy源码模块

将comScrapy/scrapy目录下的内容或者连同目录单独分割出来,因为这才是scrapy的真正源代码,其余的都是绿叶(安装,检测,校验之类的),以后我们就在这个scrapy目录来进行操作了,项目就是这个scrapy目录。

四.github地址

https://github.com/wangrenlei/debug_scrapy

结束!(下期要关注我哦,爱你么么大-。-)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值