爬取豆瓣短影评(发布城市,加入时间,点赞人数,用户名,评分,发布时间,短评)

最新推荐文章于 2025-06-01 22:35:58 发布

原创

最新推荐文章于 2025-06-01 22:35:58 发布 · 3.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #html

由于本人爬取豆瓣影评的时候，我想爬取的比较完善，因为我看大多都是爬取短评而已，本人想爬取其他内容所以写下这篇，希望对大家有帮助。
一、pip对库的调用
下载命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple +库名
需要安装的库有 re,requests
内建库(time,random)
图：
在这里插入图片描述

二、确认网站是什么类型
判断网页时动态的还是静态的可以点击右键，查看网页源代码，在这里插入图片描述
复制“西楼尘”三个字在网页源代码中，具体方法时ctrl+f
搜索，如果在网页源代码有内容提示的话(高亮题目)

基本就是可以确定时静态的(可以多复制其他内容实验一下)。通过这里可以知道该网站时静态的。
三、查询数据来源
我搜索的是“寄生兽”所以网址：https://movie.douban.com/subject/27010768/comments?start=0&limit=20&sort=new_score&status=P
在这里插入图片描述
可以看到有五个数据是我们想要的，然后打开网页源代码

通过re匹配抓取到点赞人数,用户名,评分,发布时间,短评
但这个网页还需要抓取到发布城市,加入时间也可以通过re正则爬取到。

点击链接，打开
找到想抓去内容在这里插入图片描述
7个数据就可以抓取下来了。
四、代码部分`

import re
import requests
import time
import random


def get_url(url):
    headers={
   
   
        "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36',
        "Cookie":'你的cooki