
Scrapy
木子_lishk
IT爱好者
展开
-
安装Scrapy
安装Scrapy需要安装前需要安装以下的软件和扩展包1.安装python,官方网址是:https://www.python.org/ ,个人下载的是:https://www.python.org/ftp/python/2.7.9/python-2.7.9.amd64.msi安装完成后,需要配置 环境变量 path:我的安装目录是:C:\My Program Files\Pyth转载 2015-03-10 16:11:36 · 642 阅读 · 0 评论 -
scrapy入门
以下转载自:http://www.cnblogs.com/dyllove98/archive/2013/07/30/3225740.html所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是转载 2015-03-11 10:45:55 · 949 阅读 · 0 评论 -
Scrapy研究探索2
转载自:http://blog.youkuaiyun.com/u012150179/article/details/34441655一. 核心架构关于核心架构,在官方文档中阐述的非常清晰,地址:http://doc.scrapy.org/en/latest/topics/architecture.html。英文有障碍可查看中文翻译文档,笔者也参与了Scraoy部分文档的翻译,我转载 2015-03-13 17:06:15 · 591 阅读 · 0 评论 -
scrapy研究探索1
以下转载自:http://blog.youkuaiyun.com/u012150179/article/details/32911511(1) 创建项目。输入:[python] view plaincopyscapy startproject w3school 以上创建项目w3school。这时会产生w3school文件夹,文件转载 2015-03-13 16:42:03 · 777 阅读 · 0 评论 -
scrapy抓取网页信息插入MySQL
在文章http://blog.youkuaiyun.com/lishk314/article/details/44243139 的基础下,将抓取到的信息保存到MySQL数据库。代码参考自:http://www.oschina.net/question/553899_113210更改 pipelines.py文件,文件内容如下:from scrapy import logfrom twisted.原创 2015-03-16 16:32:32 · 1886 阅读 · 0 评论 -
pkg_resources.DistributionNotFound 错误
当执行scrapy startproject test时,如果出现:pkg_resources.DistributionNotFound :XXX的错误,则表示缺少XXX 包.如以下错误:(1)pkg_resources.DistributionNotFound : cssselect(2) pkg_resources.DistributionNotFound : queuelib原创 2015-04-02 16:53:20 · 8708 阅读 · 1 评论 -
Scrapy研究探索3
首先,在教程(二)(http://blog.youkuaiyun.com/u012150179/article/details/32911511)中,研究的是爬取单个网页的方法。在教程(三)(http://blog.youkuaiyun.com/u012150179/article/details/34441655)中,讨论了Scrapy核心架构。现在在(二)的基础上,并结合在(三)中提到的爬取多网页的原理方法,进而进行转载 2015-03-13 17:57:12 · 705 阅读 · 0 评论 -
scrapy:xpath string(.)非常注意问题
text = selector.xpath('//div[@span="ct"]/string(.)').extract_first()#写成这样是xpath语法错误,而把string(.)单独提出来就可以过data = selector.xpath('//div[@span="ct"]')text = data.xpath('string(.)').extract_first()...转载 2018-10-30 09:07:12 · 596 阅读 · 0 评论 -
scrapy爬取链接后再爬取链接内容
以下代码是在python3.6环境下测试通过#!/usr/bin/python # -*- coding:utf-8 -*- from scrapy.http import Requestfrom scrapy.spiders import Spiderfrom scrapy.selector import Selectorfrom storage.items import W3S...原创 2019-02-15 10:48:52 · 3087 阅读 · 0 评论