爬虫
紫色的梅花
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
urllib爬虫封装(可设置代理,记录日志)方法
urllib爬虫封装(具体其他功能根据需求完善) 1.支持设置HTTP Request Headers ,能设置UA。 2.支持代理服务器的设置。 3.它支持timeout超时机制。 4.它支持网页 的编码指定。 5.它支持服务器返回的错误处理 如果>400 and <500 直接记录日志, 如果错误码是500-600 则重新发起请求。 # -*- coding: ...原创 2019-09-18 07:17:56 · 12171 阅读 · 0 评论 -
scrapy创建一个项目的流程(简洁)
1. scrapy的安装 pip install scrapy 如果出错,安装相关的依赖包。 2.命令帮助 scrapy 3.创建一个scrapy项目 scrapy startproject tencentSpider 创建的结果如下: 创建的项目tencentSpider的目录结构: 4.生成一个具体的爬虫文件 scrapy genspider tencent hr.te...原创 2019-09-18 23:36:24 · 1268 阅读 · 0 评论
分享