
爬虫
爬虫
huanghelouzi
研究兴趣:图神经网络和差分隐私。
公众号:图神经网络GNN
展开
-
使用requests和re模块爬取i春秋论坛的精品贴(小爬虫)
前言 最近在刷i春秋论坛的帖子,发现论坛首页每天都会推送一些精品文章,但是有时候好几天也没有更新首页的推送,总不能每天都去刷新吧。所以有了这个脚本或称之为小爬虫(如果它能被称为爬虫的话),去爬取精品文章的标题,链接以及简介。 正文 需要看懂这个脚本大概需要学会简单的正则表达式,requests模块和re模块的基本使用,如果不会请自行学习。大佬绕行。 第一步是爬取整个首页,分析源代码,这一步需要需...原创 2018-11-06 20:54:33 · 1927 阅读 · 0 评论 -
使用requests和re模块爬取某个学习站点的所有用户头像
前言 这篇博文接上一篇。这个网站是我个人认为挺好的一个学习网站(没有做广告,全程马赛克),整好今天有空就爬下这个网站所有的用户的头像,并且使用用户名作为文件名。 正文 首先分析用户个人空间的url,发现用户空间的url的结构是这样的,可以使用for循环遍历用户id。 https://www.马赛克.com/user/用户id/ 接着分析用户名和用户头像在哪些固定的html标签中,这里可以使用浏览...原创 2018-11-07 16:43:37 · 795 阅读 · 1 评论