Scrapy爬虫
文章平均质量分 91
Angry_Caveman
Talk is cheap,show me the code
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Scrapy02】第一个例子
在上一篇文章中,笔者已经搭建好了Scrapy框架,那么本文的主要目的是记录Scrapy框架的简单使用,也就是第一个例子。 注意:上文用到的最新的python3.7和Twisted中的一个函数存在冲突,属于版本问题,目前还没有较好的解决办法(存在一个解决办法,但是觉得不太合适),所以在此处更正,建议使用python3.6,重新搭建环境,除了下载python版本有变化,其余步骤都没有区别。 在本文...原创 2018-08-13 18:13:56 · 350 阅读 · 0 评论 -
【Scrapy03】解析spider
在上一篇文章的代码中,01.py是基本的Scrapy爬虫结构,其名称变量名(name),起始地址变量名(start_urls),解析函数名(parse()),这些都是不可更改的。 这样严格的设置,是否能满足所有爬虫项目的需求? 代码中显示,笔者在自定义爬虫类时,继承了一个基类spider。实际上,在真正的使用过程中,都需要通过继承,然后重写其方法来满足我们的需求。 首先,需要从github上...原创 2018-08-20 16:03:23 · 668 阅读 · 0 评论 -
【Scrapy01】环境搭建
一介绍 Scrapy框架在windows或者是Linux环境下的安装和使用并没有太大的差别,相对windows而言,Linux可能更为方便简单一些,而且网上的资料也更为丰富完善。所以笔者在此处,记录一下windows环境搭建的完整过程,以作为其他资料的补充。 此处使用的具体环境是,在Vmware中,安装win7,安装python3,安装Scrapy1.5,搭建环境变量,以及Scrapy在Pyc...原创 2018-07-23 19:14:54 · 331 阅读 · 0 评论 -
【Scrapy04】进化!01号爬虫
在知道了01爬虫的运行原理之后,现在能让其去做更多的事情,在上一节中已经拿到了页面上所有文章的链接,现在可以进入每一条链接,可以拿到文章的详细内容,对其进行一一解析,这就是本文的内容,02号爬虫。 分析页面 首先访问优快云博客主页:https://blog.youkuaiyun.com/, 按照01号爬虫的解析规则,解析出每一篇文章的详细链接。然后依次访问链接,进入文章的详情页面,解析内容为:标...原创 2018-08-28 15:45:26 · 299 阅读 · 0 评论
分享