- 博客(5)
- 收藏
- 关注
原创 正则语法学习日志
正则语法学习日志一、语法普通字符:r‘xxx’(xxx表示字符,就是在内容中查找所有xxx,返回字符)元字符:“.”:通配符,匹配所有的字符。“*”:重复符1,表示字符重复任意次,包括0次。比如:r‘我.*’就是匹配以我开头所有的字符(包括我)。“+”:重复符2,和“*”作用相同·,但是不包括0次。比如:content = ‘’’<head><title><\title><\head>’’’中r’<.*>’和
2021-07-18 17:51:46
150
转载 爬虫小问题(4):
1、爬取到的url部分为空值问题描述和分析:在爬取的一些网站中,有些比如目录开始之前会有空url。无法发起request请求,导致爬虫中断。解决方法:1、加上一个if判断语句,只对列表中符合要求的url发起后续请求。2、抛出异常,保存日志或者重新请求,或者加请求超时。用try语句抛出异常,防止程序中断。2、ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。问题描述:爬虫爬取的频率太高,被网站服务器发现并实施反爬,会
2021-07-14 11:32:31
322
原创 爬虫小问题(3):爬取的页面出现乱码,Unicode和utf-8、gbk之间的关系
爬虫小问题(3):爬取的页面出现乱码问题在爬虫中出现中文内容的时候,爬取下来的html页面会出现乱码。原因:爬取下来的页面是一般默认编码为ASCII。而windows控制台默认gbk,抓取utf-8编码的网站或者Mac终端(utf-8)抓取了gbk编码的网站,都容易出现。如果页面中英文、数字、符号都没有问题,仅仅是没有中文内容,而是夹杂着一堆乱码,那就是这种情况。解决方法:1.去原网站查找网站编码,然后将爬取的页面编码设置为该编码。在该网站开发者页面中,Ctrl+F搜索charset属性
2021-07-12 15:17:47
1989
原创 爬虫小问题(2):io.UnsupportedOperation: not writable
with opewith open('./页面数据.html', 'r', encoding='utf-8') as fp: fp.write(dic_)在open中,如果用‘r’作为参数,是默认打开阅读,不具有写(fp.write())的使用。可以把‘r’改成‘r+’或者‘w’,可以解决问题。...
2021-07-12 11:44:09
205
原创 爬虫小问题(1):binary mode doesn‘t take an encoding argument
在打开文件进行持久化储存爬虫数据的时候,with open('./页面数据.html', 'wb', encoding='utf-8') as fp: fp.write(dic_)或者with open('./页面数据.html', 'rb+', encoding='utf-8') as fp: fp.write(dic_)运行会出现这个报错:binary mode doesn't take an encoding argument。中文意思是二进制模式不接受编码参数。就是因为
2021-07-12 11:32:49
5485
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人