前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!

有需要python源码/安装包/教程/电子书/资料等 点击此处跳转文末名片免费获取
环境使用
-
Python 3.8 解释器
-
Pycharm 编辑器
所需模块
-
import parsel >>> pip install parsel
-
import requests >>> pip install requests
-
import csv
代码实现步骤:
基本四大步骤 --> 发送请求,获取数据,解析数据,保存数据
-
发送请求, 模拟浏览器对于url地址发送请求
https://movie.douban.com/subject/35267208/comments?limit=20&status=P&sort=new_score
-
获取数据, 获取服务器返回响应数据
开发者工具 --> response
-
解析数据, 提取我们想要的数据内容
评论相关数据
-
保存数据, 把数据内容保存表格文件里面
评论数据获取
发送请求, 模拟浏览器对于url地址发送请求
返回<Response [200]>表示请求成功
# 请求链接
url = f'https://movie.douban.com/subject/35267224/comments?start=20&limit=20&status=P&sort=new_score'
# 伪装模拟
headers = {
# User-Agent 用户代理, 表示浏览器基本身份标识
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
print(response)

解析数据
解析方法:
- 正则re --> 直接对于字符串数据进行解析
- css选择器 --> 根据标签属性提取数据
- xpath节点提取 --> 根据标签节点提取数据
把获取下来html字符串数据 <response.text>, 转成可解析对象
selector = parsel.Selector(response.text)
# 第一次提取, 所有div标签
divs = selector.css('div.comment-item')
# for循环遍历, 把列表里面元素一个一个提取出来
for div in divs:
name = div.css('.comment-info a::text').get() # 昵称
rating = div.css('.rating::attr(title)').get() # 推荐
date = div.css('.comment-time::attr(title)')

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



