
Scrapy简明教程
Scrapy是一个流行的网络爬虫框架,它拥有很多简化网站抓取的高级函数,本专栏将介绍Scrapy框架的基础使用以及进阶操作。
HP的博客
To be an oscer.
展开
-
Scrapy简明教程(一)——简介与安装
1. 认识 Scrapy 框架: 中文文档: http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html 英文文档: https://doc.scrapy.org/en/latest/index.html Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初原创 2017-09-14 20:19:23 · 2762 阅读 · 0 评论 -
Scrapy简明教程(二)——开启Scrapy爬虫项目之旅
1. 启动项目: 安装好 Scrapy 以后, 我们可以运行 startproject 命令生成该项目的默认结构。具体步骤为: 打开终端进入想要存储 Scrapy 项目的目录,然后运行 scrapy startproject <project name>。这里我们用 FirstProject作为项目名:scrapy startproject FirstProject以下是 scrapy 命令生成的原创 2017-09-16 23:09:11 · 24274 阅读 · 2 评论 -
Scrapy简明教程(三)——爬取优快云博文并写入文件
本篇博文将介绍 Scrapy 爬取 优快云 博文详情页并写入文件,这里以 http://blog.youkuaiyun.com/oscer2016/article/details/78007472 这篇博文为例: 1. 先执行以下几个命令:scrapy startproject csdnblog cd csdnblog/ scrapy genspider -t basic spider_csdnblog cs原创 2017-09-17 20:27:41 · 5967 阅读 · 0 评论 -
Scrapy简明教程(四)——爬取优快云博客专家所有博文并存入MongoDB
首先,我们来看一下优快云博客专家的链接: http://blog.youkuaiyun.com/experts.html 上图为 优快云 所有博客专家页面,点击下一页后发现每次 url 都不会改变,但是已经翻页了,检查网页元素如下图: 我们发现可以通过 value 值来构造 url 实现翻页,&page=1代表第一页,先来看一下构造的 优快云 博客专家首页: http://blog.youkuaiyun.com/原创 2017-09-18 22:44:01 · 3022 阅读 · 0 评论 -
Scrapy简明教程(五)——命令行传参爬取淘宝商品数据
首先我们先来看一下淘宝搜索商品的页面,这里以糖炒板栗为例: 可以看到搜索到了很多糖炒板栗,显示有100页,但真正搜索到的商品超过了100页,给用户只显示前100页,后面编写的爬虫只爬取前50页,url构造这里就不讲了,之前的博客已经讲过了,需要更多可以自己更改页数,然后我们检查网页元素,找到商品链接并复制,然后在网页源代码里查找,结果如下: 发现并没有找到,说明该数据是动态原创 2018-01-07 14:14:09 · 7628 阅读 · 5 评论