python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

本文介绍了一个Python爬虫程序,用于爬取豆瓣电影排行榜中的电影信息,包括电影类型、演员、年份、国家、标签、评分和链接。首先获取电影类型及其编号,然后通过AJAX发送GET请求获取数据,最后利用xlwt模块将数据存储到Excel表格中。程序适用于批量获取特定类型电影的详细信息。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

'''

爬取豆瓣电影排行榜

设计思路:

1、先获取电影类型的名字以及特有的编号

2、将编号向ajax发送get请求获取想要的数据

3、将数据存放进excel表格中

'''

环境部署:

软件安装:

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):

安装requests模块、lxml模块(发送请求,xpath获取数据)pip install requests #(主要用来发送请求,获取响应)

pip install lxml #(主要引用里面的etree里面的xpath方法)

安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)1、下载地址:https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b

2、window平台下:

· 把文件的后缀名crx改为rar,然后解压到同名文件夹中

· 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中

· 打开开发者模式,通过加载已解压的扩展程序,将插件导入

3、ios平台下:

· 直接将crx文件拖进扩展程序中

安装xlwt模块(将数据存放进excel表格)pip install xlwt

项目中需要引入的模块:

import requests

from lxml import etree

import xlwt

import time

使用流程:

在列表中填写所需要获取的电影类型名

输入开始时获取的start以及获取多少数据的limit

填写所要输出的excel表格的名字(代码中默认douban.xls)

程序运行结束后打开excel验证数据是否获取

观察自己所需

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值