F3519797075-优快云博客

原创正则语法学习日志

正则语法学习日志一、语法普通字符：r‘xxx’（xxx表示字符，就是在内容中查找所有xxx，返回字符）元字符:“.”：通配符，匹配所有的字符。“*”：重复符1，表示字符重复任意次，包括0次。比如：r‘我.*’就是匹配以我开头所有的字符（包括我）。“+”：重复符2，和“*”作用相同·，但是不包括0次。比如：content = ‘’’<head><title><\title><\head>’’’中r’<.*>’和

2021-07-18 17:51:46 265

转载爬虫小问题（4）：

1、爬取到的url部分为空值问题描述和分析：在爬取的一些网站中，有些比如目录开始之前会有空url。无法发起request请求，导致爬虫中断。解决方法：1、加上一个if判断语句，只对列表中符合要求的url发起后续请求。2、抛出异常，保存日志或者重新请求，或者加请求超时。用try语句抛出异常，防止程序中断。2、ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。问题描述：爬虫爬取的频率太高，被网站服务器发现并实施反爬，会

2021-07-14 11:32:31 402

原创爬虫小问题（3）：爬取的页面出现乱码，Unicode和utf-8、gbk之间的关系

爬虫小问题（3）：爬取的页面出现乱码问题在爬虫中出现中文内容的时候，爬取下来的html页面会出现乱码。原因：爬取下来的页面是一般默认编码为ASCII。而windows控制台默认gbk，抓取utf-8编码的网站或者Mac终端（utf-8）抓取了gbk编码的网站，都容易出现。如果页面中英文、数字、符号都没有问题，仅仅是没有中文内容，而是夹杂着一堆乱码，那就是这种情况。解决方法：1.去原网站查找网站编码，然后将爬取的页面编码设置为该编码。在该网站开发者页面中，Ctrl+F搜索charset属性

2021-07-12 15:17:47 2125

原创爬虫小问题（2）：io.UnsupportedOperation: not writable

with opewith open('./页面数据.html', 'r', encoding='utf-8') as fp: fp.write(dic_)在open中，如果用‘r’作为参数，是默认打开阅读，不具有写（fp.write（））的使用。可以把‘r’改成‘r+’或者‘w’，可以解决问题。...

2021-07-12 11:44:09 247

原创爬虫小问题（1）：binary mode doesn‘t take an encoding argument

在打开文件进行持久化储存爬虫数据的时候，with open('./页面数据.html', 'wb', encoding='utf-8') as fp: fp.write(dic_)或者with open('./页面数据.html', 'rb+', encoding='utf-8') as fp: fp.write(dic_)运行会出现这个报错：binary mode doesn't take an encoding argument。中文意思是二进制模式不接受编码参数。就是因为

2021-07-12 11:32:49 5588

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 正则语法学习日志

转载 爬虫小问题（4）：

原创 爬虫小问题（3）：爬取的页面出现乱码，Unicode和utf-8、gbk之间的关系

原创 爬虫小问题（2）：io.UnsupportedOperation: not writable

原创 爬虫小问题（1）：binary mode doesn‘t take an encoding argument

空空如也

空空如也

原创正则语法学习日志

转载爬虫小问题（4）：

原创爬虫小问题（3）：爬取的页面出现乱码，Unicode和utf-8、gbk之间的关系

原创爬虫小问题（2）：io.UnsupportedOperation: not writable

原创爬虫小问题（1）：binary mode doesn‘t take an encoding argument