
爬虫
bodyHealthy
最怕一生碌碌无为,最后又说平凡可贵
展开
-
python爬虫实战——小红薯
任务:在 win 环境下,利用 Python、webdriver、JavaScript等,获取 xiaohongshu 某个博主的全部作品。本文仅做学习和交流使用。1、博主页面分析section 代表每一项作品,但即使博主作品有很多,在未登录状态下,只会显示 20 项左右。向下滚动页面,section 发生改变(个数不变),标签中的 index 会递增。向下滚动页面时,到一定的范围时,会发送一个获取作品数据的请求,该请求每次只请求 30 项作品数据。原创 2024-03-13 21:45:15 · 7351 阅读 · 10 评论 -
python爬虫实战——DouYin
以登录状态(或者有cookies本地存储等状态)访问目标博主页面,滚动到作品最底部,然后在控制台中执行JavaScript脚本,获取全部作品的信息(在这里是作品链接以及作品类型),然后写出到文本文件中。上述的操作是在无登录状态下进行的,即使在webdriver中操作让页面滚动,也只能获取到有限的作品,大约是 20 项左右。然后在python中读入该文件,使用json解析,转成字典列表的形式,遍历列表,对每一个字典(就是每一个作品)进行处理即可。进入作品页前 判断作品是视频作品还是图文作品。原创 2024-03-12 23:25:14 · 20683 阅读 · 10 评论