
爬虫技巧
行走的学习机
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy连接Mongo设置(设置密码后登录NOSQL)( python scarpy 中连接有身份验证的 数据库)(解除数据库用户和密码限制)
1.如何设置数据库用户名和密码?2.scarpy 中如何设置 有身份验证的 数据库?3.如何解除数据库用户和密码限制?※※※※第一步:在mongoDB命令行中,将root权限设置给用户admin#如果此处有用户和密码,需要先验证用户和密码db.auth({user: "用户名", pwd: "密码"})#进入admin中use admin #创建roo...原创 2019-12-27 10:23:19 · 682 阅读 · 1 评论 -
小技巧之(随机项提取使用、open() 写入文档操作)
随机提取User-Agent方法:user_agent_list = [ "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", "Mozilla/5.0 (Windows NT 6.1; ...原创 2019-12-19 16:26:12 · 136 阅读 · 0 评论 -
爬虫之请求执行保障和容错方法(timeout-超时、try...except...异常捕获、retrying-容错次数,函数调用及传参问题)
一个较为完善的requests方法封装import requestsfrom retrying import retryheaders = {"User-Agent","Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.5...原创 2019-12-18 11:05:46 · 745 阅读 · 0 评论 -
爬虫之百度翻译(附__init__函数作用、GET请求头和POST请求体的区别、python 函数学习之sys.argv[1])
import requestsimport jsonclass BaiduFanyi: def __init__(self,trans_str): #将固定不变的数据放在初始化函数,可以在其他函数中传递。 #在__init__(self,trans_str)中的trans_str,是在全局实例化类名后面可以添加的实参 #比如: self.trans_str = trans_st...原创 2019-12-17 17:05:28 · 282 阅读 · 0 评论 -
爬虫之Requests模块(编码、解码、保存图片、文件读写操作)
Requests使用入门(第三方模块,需要pip安装,自行百度)问题:为什么要学习requests,而不是urllib?原因:1.requests的底层实现就是urllib2.requests在python2、3中通用,方法一样3.requests简单易用4.requests能够自动解压(gzip压缩等)网页内容requests的作用作用:发送网络请求,返回响应数据...原创 2019-12-17 10:12:54 · 860 阅读 · 0 评论 -
爬虫之session和cookie处理(内附.content用法、for循环推导式、split()方法、特殊cookie转字典)
cookie和session区别1.cookie数据存放在客户的浏览器上,session数据存放在服务器上cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗2.session会在一定时间内保存在服务器上。当访问增多,会比较占用服务器的性能3.单个cookie保存的数据不能超过4k,很多浏览器都限制一个站点最多保存20个cookie爬虫处理cookie和...原创 2019-12-16 16:17:53 · 262 阅读 · 0 评论 -
爬虫之特殊cookie转字典的方法
直接看代码:cookies = "uuid_tt_dd=10_37359065420-1574065916898-684366;dc_session_id=10_1574065916898.372791;" \ "__gads=ID=3f12c01ff37a7b96:T=1574300659:S=ALNI_MbDcZxBjyhd9lIwQE8ryujHfVdQBg"cook...原创 2019-12-16 16:05:55 · 406 阅读 · 0 评论