Python爬虫入门之豆瓣短评爬取

本文介绍了使用Python3进行豆瓣短评爬取的步骤,包括安装必要的库requests、lxml、openpyxl和pandas,通过XPath解析网页,抓取并保存评论数据到Excel文件中。通过分析网页源代码,提取出评论内容的XPath表达式,最终成功生成了comments.xlsx文件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

采用工具pyCharm,python3,工具的安装在这就不多说了,之所以采用python3是因为python2只更新维护到2020年。

  1. 新建python项目
    在这里插入图片描述

  2. File-Settings-project interpreter,点右上角+号,安装requests,lxml,openpyxl,pandas四个包。
    requests爬取豆瓣短评
    lxml解析定位豆瓣短评
    panda转换并保存豆瓣短评数据
    openpyxl是读写excel文件所用到的包
    在这里插入图片描述
    在这里插入图片描述

  3. 在项目下新建一个python file,实例代码如下:
    在这里插入图片描述

  4. 这里着重说一下,xpath路径如何获取,在网页中选中评论内容,右击-检查,自动跳到对应代码行,再在该代码行上右击-Copy-Copy XPath;粘贴出来你的代码好比如是://[@id=“comments”]/ul[1]/li[1]/div[2]/p/span,这时你要结合你的前端基础知识和页面世界节点去分析,最后把xpath改成//[@class=“comment”]/p/span/text()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值