
scrapy
文章平均质量分 77
写了程序换酒钱
Want to be a geek!!!
展开
-
使用Scrapy来爬取自己的优快云文章
前言爬虫作为一中数据搜集获取手段,在大数据的背景下,更加得到应用。我在这里只是记录学习的简单的例子。大牛可以直接使用python的url2模块直接抓下来页面,然后自己使用正则来处理,我这个技术屌丝只能依赖于框架,在这里我使用的是Scrapy。install首先是python的安装和pip的安装。 sudo apt-get install python python-pip python-dev原创 2015-05-13 21:09:57 · 14497 阅读 · 6 评论 -
使用Scrapy来爬取自己的优快云文章 (2)
前言前面讲到只是爬取了title和url,那么怎么爬取文章,其实原理是一样的。过程保存文章内容的Item我们在item.py中添加一项,如下:class CsdnArticleItem(Item): title = Field() article = Field() pass我们保存文章的题目和内容。分析文章的链接csdn是怎么来保存一篇文章的,我们来看一个url: htt原创 2015-05-16 15:07:11 · 2328 阅读 · 0 评论