爬虫
BelieverH
努力看明天的太阳。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Selenium中使用Cookies绕过登录
Selenium中使用Cookies绕过登录在使用selenium测试后台时常常每个流程都需要走登录流程,这样自然比较浪费时间。如果遇到登录需要输入验证码等情况,就可能出师未捷身先死。在Web应用中,登录状态通常是通过Cookie中对应的session id验证的。也是就是说,我们只要携带上登录后的Cookies,浏览器就会自动识别我们为登录状态。由于Selenium每次启动的浏览器是一个隔离的环境,不能直接使用本地已经保存的Cookies值,我们需要通过driver的add_cookie()方法手动添原创 2020-05-24 21:51:05 · 988 阅读 · 0 评论 -
中间人攻击mitmproxy详解
什么是mitmproxymitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。mitmproxy还有两个关联组件。一个是mitmdump,这是它的核心组件,监听信息流,和使用其他语言(python,js)控制。它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。...原创 2020-04-25 22:19:46 · 1479 阅读 · 0 评论 -
requests.exceptions.ChunkedEncodingError: ('Connection broken: IncompleteRead(0 bytes read)'
requests.exceptions.ChunkedEncodingError: (‘Connection broken: IncompleteRead(0 bytes read)’, IncompleteRead(0 bytes read))解决方法:问题:爬虫requests请求时发生如下错误解决方法:解决:requests请求时,后面加上参数:stream=True。参考外国...原创 2020-01-11 17:41:12 · 2982 阅读 · 1 评论 -
常见爬虫的分类
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 。1.通用网络爬虫(General Purp...原创 2019-10-28 14:18:19 · 10401 阅读 · 0 评论 -
破解有道翻译
破解有道翻译1、先获取到翻译的接口(http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule)2、想要翻译单词,肯定要提交表单,查看Network中From-Data所提交的内容3、分析提交内容发现,i是你所提交的内容,salt是时间戳,ts是时间戳少一位,sign是通过加密算法加密,通过页面返回的JS...原创 2019-09-23 22:03:29 · 3052 阅读 · 0 评论 -
Python爬虫面试题(一)
一、HTTP与HTTPS的区别?概念:HTTP:超文本传输协议,是互联网应用最广泛的一种网络协议,所有的www文件都必须遵守这个标准,是一个客户端与服务器端请求和应答的标准(TCP),用于从www服务器传输超文本到本地浏览器的传输协议。HTTPS:安全套接字层超文本传输协议,以安全为目标的HTTP通道,简单的说就是HTTP安全版,即在HTTP下加入SSL层,HTTPS的安全基础是...原创 2019-09-23 22:21:27 · 264 阅读 · 0 评论
分享