- 博客(3)
- 收藏
- 关注
原创 正则表达式——贪婪匹配(.*)与惰性匹配(.*?)的比较
文章借助OSCHINA在线正则表达式测试,通过一个待匹配文本的例子,比较贪婪匹配(.*)与惰性匹配(.*?)的匹配结果,加深对其的认识。
2022-02-23 22:27:22
287
原创 将urllib.request.urlopen(url).read().decode(‘utf-8‘)保存为html后,再打开为乱码?
笔者在初学Python爬虫时,用到 urllib.request.urlopen 获取百度搜索页面 (http://www.baidu.com) 上的信息,发现将 urllib.request.urlopen(url).read().decode(‘utf-8‘) 保存为 html 后,再打开为乱码,这是因为要写入的 html 文件未将编码设置为 utf-8。
2022-02-07 12:13:47
1961
1
原创 urllib.request.urlopen(url)不能两次.read()?
笔者在初学Python爬虫时,用到 urllib.request.urlopen 获取百度搜索页面 (http://www.baidu.com) 上的信息,发现 urllib.request.urlopen(url) 在第二次调用 .read() 时 变为空了,这是因为第一次调用 .read() 已经把所有字节都解读了。
2022-02-04 13:58:09
1249
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人