
爬虫基础
文章平均质量分 58
mighty13
这个作者很懒,什么都没留下…
展开
-
微信读书API分析
现有微信读书相关开源项目概述微信读书提供了大量正版图书,全文可复制、标注便利,支持移动和PC两大平台。所以近几年一直使用微信读书看书,并对大量图书做了批注,但是微信读书不支持导出批注。在github搜下了,发现了三个比较好的项目,他们对微信读书API已经做了很多探索。@arry-lee 的wereader项目,地址:https://github.com/arry-lee/wereader该项目是最早解释微信读书API的项目,具有以下特点:第一次运行需要粘贴微信读书的cookie字符串。这就需要原创 2021-07-30 23:28:05 · 37761 阅读 · 1 评论 -
UnicodeEncodeError: ‘latin-1‘ codec can‘t encode character ‘\u2026‘ in position异常的原因
异常现象通过F12 浏览器开发者工具复制cookie,使用requests库进行请求时,抛出UnicodeEncodeError: 'latin-1' codec can't encode character '\u2026' in position异常。原因分析通过查询可知Unicode\u2026对应的字符为…。检查cookie发现其中含有…,cookie信息并不完整。通过观察发现,在开发者工具中,如果header中的值比较长会自动折叠内容,用…显示。解决方法对于firefox浏览器,点击原创 2021-07-28 01:38:48 · 34202 阅读 · 4 评论 -
Requests简明教程
本教程基于Requests V2.18.1文档汇编、整理。一、简介Requests是一个基于urllib3的开源Python HTTP库,项目以Apache2协议发布。二、安装$ pip install requests三、快速上手3.1 发送请求# 导入requests>>> import requests# 使用get方法请求某个URL,返回值r为Response对象。r对象包含了我们的所需信息。>>> r = requests.get('http原创 2021-04-01 18:06:40 · 30803 阅读 · 0 评论 -
Selenium如何隐藏Firefox geckodriver的window.navigator.webdriver属性(Firefox88.0已失效)
在当前全民爬虫的形势下,Selenium已经成为爬虫必备技能,自然Selenium也成为反爬必备的检测项目,常见识别Selenium的方法主要通过检测浏览器的window.navigator.webdriver属性。下面我们看下不同浏览器的window.navigator.webdriver属性值。正常Firefox浏览器Selenium+geckodriver代码:from selenium import webdriveroptions = webdriver.FirefoxOption原创 2021-02-03 00:27:04 · 32219 阅读 · 4 评论 -
requests https访问错误SSLError: certificate verify failed 及InsecureRequestWarning处理办法
在使用requests访问某网站时,提示如下错误,Python版本为2.7.13。SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)经过搜索,urllib或requests在打开https站点是会验证证书。 简单的处理办法是在get方法中加入verify参数,并设为false。reque原创 2017-09-24 12:45:50 · 35552 阅读 · 0 评论 -
读取文本出现 锘 * 系列乱码错误(UTF-8 BOM问题)的原因及解决方法
现象读取文本时经常会出现锘*系列错误。 例1:锘縣,其实开头的文本是h,http被显示为锘縣ttp 例2:锘缝,其实开头的文本是p,public被显示为锘缝ulic 只要文本的首字母为锘的都属于这类错误,在Python、Java、PHP等等使用过程中都会遇到,这类错误与语言无关,错误的原因是UTF-8的BOM。原因BOM即Byte Order Mark,是UTF-8文档的Unicode签名,即原创 2017-09-24 16:53:57 · 34813 阅读 · 0 评论 -
Requests 之Max retries exceeded with url[Errno 10054]错误新解
只要使用过requests模块,想必对Max retries exceeded with url[Errno 10054]错误都不会太陌生。 这是requests常见的一种错误,原因就是连接太多没有关闭导致socket超时。 一般的解读是urllib3的问题,因为requests是基于urllib3的,urllib3默认不支持长连接即keep-alive解决方案一requests.adapter原创 2017-10-13 23:41:27 · 25854 阅读 · 0 评论 -
Python2 之汉字编码为unicode问题(即类似\xc3\xa4)
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。 比如本文所述的中文网页GBK编码的诡异问题。现象例如:会,盲录職氓聭聵,其实网页里面正常的应该是会员分析接着上面的例子,会员这部分乱码通过repr()函数求值得到如下结果\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98使用type()函数求值得到的结果为unicodeprint出来值为原创 2017-10-14 01:37:27 · 27842 阅读 · 2 评论