豆瓣电影数据爬取

该代码示例仅作参考

开发工具 miniconda、python、pycharm

一、爬取时间

2022.12.25 左右

二、需求

1.爬取内容

(1)图片示例

以下图为例:

 (2)电影基本信息

1、片名

2、导演姓名(如果电影多名导演,都需要)

3、编剧姓名(如果电影多名编剧,都需要)

4、演员(只爬取前6名)

5、类型(爬取电影的所有类型数据)

6、国家和地区(如果有多个,都需要)

7、语言(如果有多个,都需要)

8、上映时间(如果有多个,都需要)

9、片长

(3)豆瓣评分

1、评分

2、星级

3、评价人数

4、每个星级的评价人数百分比(比如五星44.1%......)

(4)喜欢这部电影的人也喜欢

爬取所有相关电影的片名

(5)短评(只爬取短评,不要评论)

1、评价人

2、评价时间(包括年月日时分秒)

3、评价人所在地

4、评价人给出的星级

5、短评内容

2.爬取数据格式

Json和csv格式的文件

三、问题解决

1.参考学习资料

视频:Python零基础爬虫开发教程 - 网易云课堂

书:《Python3网络爬虫开发实战》第2版 崔庆才 著

2.解决思路

模拟浏览器浏览过程获取数据

1.爬取电影页面链接;
2.依次爬取每个电影的信息;
3.合并多个文件内容。

3.实现代码

4.数据展示

使用 EmEditor 查看 csv 电影数据

代码链接:爬虫-豆瓣电影数据爬取-资料代码资源-优快云文库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值