
废弃
gongchengshiv
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫开始
爬虫程序写了一段时间了,不进行记录容易忘记,现在就有点模糊了。用了才去学,用过了就忘了。 用python语言写的爬虫,基于scrapy框架,部署在了scrapyd服务器中,设置了linux定时执行。 爬取了开放的信息、并解析出想要获取的信息。尝试成功了登录后爬取,没有尝试成功使用动态ip代理实例。 爬取海投网的时候频率过高被警告了,以后需要注意请求频率。原创 2017-08-29 17:45:23 · 307 阅读 · 0 评论 -
爬虫整体结构
1、开发语言是python 2、使用开源爬虫框架scrapy 3、使用scrapy对应的服务器scrapyd 4、使用crontab定时机制原创 2017-08-21 17:06:43 · 589 阅读 · 0 评论 -
scrapy框架笔记
1、xpaht返回的节点也可以再次进行xpaht解析: zw_table = response.xpath('//table[@class="newlist"]') gsmc=zw_table[1].xpath('.//td[@class="gsmc"]//a[1]/node()').extract() 2、获取节点内的html全部内容包含html变迁,用法:原创 2017-08-11 10:19:48 · 248 阅读 · 0 评论 -
scrapy学习之一-基础
1、scrapy是python语言编写的爬虫框架,支持扩展,帮开发者完成了基础的搭建,开发者只需开发核心代码。至于爬取速率、cookie、线程数、间隔时间只需要配置即可。一定程度上方便了开发者。好像不支持分布式吧,也谈不上分布式,支持并发,默认并发请求16个。 2、用scrapy主要写spider、item、pipe。原创 2017-08-10 19:55:20 · 318 阅读 · 0 评论 -
Python之安装部署
1、下载安装、部署步骤忘了,上上周做的事情。用的版本是3.5.2 2、用的开发工具是sublime,记得需要配置一些东西才能用原创 2017-08-07 09:13:57 · 318 阅读 · 0 评论