自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 正则语法学习日志

正则语法学习日志一、语法普通字符:r‘xxx’(xxx表示字符,就是在内容中查找所有xxx,返回字符)元字符:“.”:通配符,匹配所有的字符。“*”:重复符1,表示字符重复任意次,包括0次。比如:r‘我.*’就是匹配以我开头所有的字符(包括我)。“+”:重复符2,和“*”作用相同·,但是不包括0次。比如:content = ‘’’<head><title><\title><\head>’’’中r’<.*>’和

2021-07-18 17:51:46 150

转载 爬虫小问题(4):

1、爬取到的url部分为空值问题描述和分析:在爬取的一些网站中,有些比如目录开始之前会有空url。无法发起request请求,导致爬虫中断。解决方法:1、加上一个if判断语句,只对列表中符合要求的url发起后续请求。2、抛出异常,保存日志或者重新请求,或者加请求超时。用try语句抛出异常,防止程序中断。2、ConnectionResetError: [WinError 10054] 远程主机强迫关闭了一个现有的连接。问题描述:爬虫爬取的频率太高,被网站服务器发现并实施反爬,会

2021-07-14 11:32:31 322

原创 爬虫小问题(3):爬取的页面出现乱码,Unicode和utf-8、gbk之间的关系

爬虫小问题(3):爬取的页面出现乱码问题在爬虫中出现中文内容的时候,爬取下来的html页面会出现乱码。原因:爬取下来的页面是一般默认编码为ASCII。而windows控制台默认gbk,抓取utf-8编码的网站或者Mac终端(utf-8)抓取了gbk编码的网站,都容易出现。如果页面中英文、数字、符号都没有问题,仅仅是没有中文内容,而是夹杂着一堆乱码,那就是这种情况。解决方法:1.去原网站查找网站编码,然后将爬取的页面编码设置为该编码。在该网站开发者页面中,Ctrl+F搜索charset属性

2021-07-12 15:17:47 1989

原创 爬虫小问题(2):io.UnsupportedOperation: not writable

with opewith open('./页面数据.html', 'r', encoding='utf-8') as fp: fp.write(dic_)在open中,如果用‘r’作为参数,是默认打开阅读,不具有写(fp.write())的使用。可以把‘r’改成‘r+’或者‘w’,可以解决问题。...

2021-07-12 11:44:09 205

原创 爬虫小问题(1):binary mode doesn‘t take an encoding argument

在打开文件进行持久化储存爬虫数据的时候,with open('./页面数据.html', 'wb', encoding='utf-8') as fp: fp.write(dic_)或者with open('./页面数据.html', 'rb+', encoding='utf-8') as fp: fp.write(dic_)运行会出现这个报错:binary mode doesn't take an encoding argument。中文意思是二进制模式不接受编码参数。就是因为

2021-07-12 11:32:49 5485

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除