Python爬虫入门之豆瓣短评爬取

最新推荐文章于 2023-09-25 21:26:16 发布

GreenUmbrella

最新推荐文章于 2023-09-25 21:26:16 发布

阅读量1.9k

点赞数

CC 4.0 BY-SA版权

分类专栏： python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_33496991/article/details/84647242

本文介绍了使用Python3进行豆瓣短评爬取的步骤，包括安装必要的库requests、lxml、openpyxl和pandas，通过XPath解析网页，抓取并保存评论数据到Excel文件中。通过分析网页源代码，提取出评论内容的XPath表达式，最终成功生成了comments.xlsx文件。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

采用工具pyCharm，python3，工具的安装在这就不多说了，之所以采用python3是因为python2只更新维护到2020年。

新建python项目
File-Settings-project interpreter，点右上角+号，安装requests，lxml，openpyxl，pandas四个包。
requests爬取豆瓣短评
lxml解析定位豆瓣短评
panda转换并保存豆瓣短评数据
openpyxl是读写excel文件所用到的包
在项目下新建一个python file，实例代码如下：
这里着重说一下，xpath路径如何获取，在网页中选中评论内容，右击-检查，自动跳到对应代码行，再在该代码行上右击-Copy-Copy XPath；粘贴出来你的代码好比如是：//[@id=“comments”]/ul[1]/li[1]/div[2]/p/span，这时你要结合你的前端基础知识和页面世界节点去分析，最后把xpath改成//[@class=“comment”]/p/span/text()

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。