- 博客(1)
- 收藏
- 关注
原创 python如何爬取糗事百科
所需要引入的库,python版本号不同,加入#coding=gbk,避免正文中出现中文时报错。 爬取的内容,跟路径在开发者模式中选择 包裹的内容。 现在我们想获取发布人,发布日期,段子内容,以及点赞的个数。不过另外注意的是,段子有些是带图片的,如果我们想在控制台显示图片是不现实的,所以我们直接把带有图片的段子给它剔除掉,只保存仅含文本的段子。 所以我们加入如下正则表达式来匹配一下,用到的方法是 re.findall 是找寻所有匹配的内容。方法的用法详情可以看前面说的正则表达式的介绍。 ...
2021-12-26 03:04:01
464
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人