
爬虫
__盛夏光年__
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【爬虫】Scrapy爬取腾讯社招信息
目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。一、预备基础1、Scrapy简介Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted 异步网络库来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2019-04-12 23:31:00 · 1166 阅读 · 1 评论 -
【爬虫笔记】爬虫基础
爬虫基础正则表达式深度优先和广度优先遍历算法url去重的常见策略爬取真实数据三个网站:技术社区、问答网站、招聘网站技术:xpath + css 获取 data模拟登陆scrapy反爬虫技术图片验证码ip访问频率限制user-agent随机切换scrapy进阶scrapy的原理基于scrapy的中间件开发scrapy redis分布式爬虫理解scra...原创 2019-05-05 22:34:36 · 250 阅读 · 0 评论 -
【爬虫笔记】Scrapy爬虫技术文章网站
Scrapy相关基本介绍参考这里一般的爬虫步骤:新建项目 (scrapy startproject xxx):新建一个新的爬虫项目明确目标(编写 items.py):定义提取的结构化数据制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页,提取出结构化数据存储内容(pipelines.py):设计管道存储爬取内容目标任务:爬取伯乐在线所有技术文档,需要爬取的内容...原创 2019-05-12 22:48:45 · 306 阅读 · 0 评论