python爬虫豆瓣电影短评_豆瓣Python爬虫:500条电影短评

本文介绍了如何使用Python爬虫抓取豆瓣电影短评,详细讲述了设置请求头、翻页及储存数据的过程,特别提到在抓取过程中遇到的登录限制和翻页问题的解决方案,最终成功获取500条短评。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

豆瓣电影短评总数多少不一,但是在短评区只能显示500条评论。

例如《囧妈》,评论数达到117120条。

(当我打开爬到的评论时,还以为自己代码有问题,检查代码未发现问题。用手机登录豆瓣APP发现,电影短评并不是全部显示的。)

所以并不是代码的问题。虽然500条评论有点少,但在写爬虫过程中还是遇到各种bug,寻找解决办法的时候也学习到了很多。

Show Time:导入模块

import requests

from bs4 import BeautifulSoup

import csv

requests和bs4用来获取、解析网页,csv用来储存数据。

2. 获取页面

def download_pages(url):

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3724.8 Safari/537.36',

'Connection': 'keep-alive',

'cookie':'ll="118193"; bid=2-BKkylYZuE; trc_cookie_storage=taboola%2520global%253Auser-id%3D30398b51-ac04-4354-a17e-16f2af9e020b-tuct5157dfe; __gads=ID=f515bc7d9a7a4fd5:T=1578891400:S=ALNI_Maz4pjSB_NxavWDa1fB5IMFQF1MfA; push_doumail_num=0; __utmv=30149280.15092; _vwo_uuid_v2=D300DC12A399D26584AA232FF9F32FBD9|18b180187a8d01fcd0187f0fc2ea37e9; douban-fav-remind=1; douban-profile-remind=1; __yadk_uid=UCh7sYG2OTrqPGlmWgSOlzoYHK4iG3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值