Python爬虫——简书首页文章信息

最新推荐文章于 2021-12-16 17:22:43 发布

原创最新推荐文章于 2021-12-16 17:22:43 发布 · 569 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

python应用专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了使用Python爬取简书首页文章信息的过程，包括文章标题、用户信息、浏览量等，并对比了xlwt和pandas存储数据至Excel的速度。

部署运行你感兴趣的模型镜像

运用Python对简书首要进行简书首页的文章信息进行爬取。具体包括：文章标题、文章id、用户昵称、用户id、总浏览量、评论数、点赞数、赞赏量。以及文章插图和用户头像的下载。并对以上数据进行excel的存储，首先进行文件是否存在的判断，不存在，则创建。再比较pandas包方法存储和xlwt方法。
在这里插入图片描述

网页分析

首先对简书首页网页进行分析。在查看网页源代码中按下ctrl+F键搜索“做人，不要自作多情，生活中真的没有人在乎你”，结果发现能从网页源代码中找到。

再对原始网页点击阅读更多，同样在网页源代码中搜索阅读更多中的任意一篇文章，结果在网页源代码中没有找到。且网页url没有变化。可以判断此网页用了异步加载技术(Ajax)。在这里插入图片描述

再在网页右击选择检查——network——xhr。刷新网页可以发现再点击展开更多文章，可以发现

在这里插入图片描述
打开url可以发现出现的正是我们需要的数据。

于是对url进行了修改，url=https://www.jianshu.com/asimov/trending/now?count=15&note_ids=9。也出现了数据。最终可以获得url为https://www.jianshu.com/asimov/trending/now?count=15&note_ids= +一个数字。

爬取数据

由上述分析获得了网页url，返回的为json文件。如下。
在这里插入图片描述具体爬取代码如下：

导入工具包，os包用来查看文件夹是否存在。xlwt和pandas用来存储到excel，time用来计时。
添加请求头
定义网页爬取函数
定义图片下载函数
主函数+数据保存
结果

在这里插入图片描述显然xlwt写入excel要快。
初次分享，还有很多不完整的地方，还望多多指正。

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小徐的数理笔记 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。