简洁实用的Python爬虫入门（运行通过，结果存于Excel）----爬取电影评论数据

最新推荐文章于 2024-07-11 20:09:14 发布

原创

最新推荐文章于 2024-07-11 20:09:14 发布 · 2.2k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#Python爬虫 #爬虫入门 #Python爬虫库 #结果存成excel

本文介绍了使用Python基础爬虫技术爬取电影评论数据的步骤，涉及Requests库获取HTML内容、XPath解析数据以及利用pandas保存结果到Excel。通过实例展示了如何从豆瓣电影页面抓取评论并进行数据处理。

简洁实用的Python爬虫入门（运行通过，结果存于Excel））----爬取电影评论数据

- 基础
- 代码
- 结果

很喜欢一句话“all things are difficult before they are easy”，它鼓励我去尝试了自己觉得难的事，今天照葫芦画瓢，实现了以前比较好奇的爬虫，这里作个简单笔记。
流程参考了《1小时入门 Python 爬虫（上）》，作者写得很详细，链接: link.
一些基本语法知识参考w3school.链接: link.

基础

Requests ：爬取评论；
Xpath：解析短评；
pandas：保存数据；

1.Requests 库

Requests 库中常用的方法：

requests.get()：**获取 HTML 网页的主要方法，对应于 HTTP 的 GET。
requests.head()：获取HTML 网页头信息的方法，对应于 HTTP 的 HEAD。
requests.post()：向 HTML 网页提交 POST 请求的方法，对应于 HTTP 的 POST。
requests.put()：向 HTML 网页提交 PUT 请求的方法，对应于 HTTP的 PUT
requests.patch()：向 HTML 网页提交局部修改请求，对应于 HTTP 的 PATCH。
requests.delete()：向 HTML 网页提交删除请求，对应于 HTTP 的 DELETE。

常见的对象属性：

r.status_code：HTTP 请求的返回状态，200表示连接成功（阅读 HTTP 状态码，了解各状态码含义）；
r.text：返回对象的文本内容；
r.content：猜测返回对象的二进制形式；
r.encoding：分析返回对象的编码方式。

（2）Xpath 解析
XPath 即为 XML 路径语言（XML Path Language），是一种用来确定 XML 文档中某部分位置的语言，XPath 用于在 XML 文档中通过元素和属性进行导航。使用简单，速度快（Xpath 是 lxml 里面的一种）

最低0.47元/天解锁文章

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。