很喜欢一句话“all things are difficult before they are easy”,它鼓励我去尝试了自己觉得难的事,今天照葫芦画瓢,实现了以前比较好奇的爬虫,这里作个简单笔记。
流程参考了《1小时入门 Python 爬虫(上)》,作者写得很详细,链接: link.
一些基本语法知识参考w3school.链接: link.
基础
- Requests :爬取评论;
- Xpath:解析短评;
- pandas:保存数据;
1.Requests 库
Requests 库中常用的方法:
- requests.get():**获取 HTML 网页的主要方法,对应于 HTTP 的 GET。
- requests.head():获取HTML 网页头信息的方法,对应于 HTTP 的 HEAD。
- requests.post():向 HTML 网页提交 POST 请求的方法,对应于 HTTP 的 POST。
- requests.put():向 HTML 网页提交 PUT 请求的方法,对应于 HTTP的 PUT
- requests.patch():向 HTML 网页提交局部修改请求,对应于 HTTP 的 PATCH。
- requests.delete():向 HTML 网页提交删除请求,对应于 HTTP 的 DELETE。
常见的对象属性:
- r.status_code:HTTP 请求的返回状态,200表示连接成功(阅读 HTTP 状态码,了解各状态码含义);
- r.text:返回对象的文本内容;
- r.content:猜测返回对象的二进制形式;
- r.encoding:分析返回对象的编码方式。
(2)Xpath 解析
XPath 即为 XML 路径语言(XML Path Language),是一种用来确定 XML 文档中某部分位置的语言,XPath 用于在 XML 文档中通过元素和属性进行导航。 使用简单,速度快(Xpath 是 lx