爬虫大作业

本文介绍了使用Python爬取豆瓣电影分类及影片详细信息的过程,包括电影名、评分、导演等属性,并进行了数据统计分析,发现四五星评分较高,同时生成了导演拍摄影片次数的词云。

作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3075

本次作业爬取的是关于豆瓣电影的分类、影片等情况

导入本次作业所需要在包

import logging
import random
import string
import requests
import time
import pandas as pd
from bs4 import BeautifulSoup
from urllib import parse
from setting import User_Agents

 爬取在目标是把分类在电影一次性爬取然后进行分析

准备代码提取网页在属性:

detail['电影名'] = soup.find_all('span',property='v:itemreviewed')[0].text
            detail['影片详情链接'] = item
            detail['豆瓣评分'] = soup.select('.rating_num')[0].text
            detail['评价人数'] = soup.find_all('span',property='v:votes')[0].text
            detail['导演'] = soup.select('.attrs')[0].text
            detail['上映时间'] = soup.find_all('span',property='v:initialReleaseDate')[0].get('content')
            detail['五星比例'] = soup.select('.rating_per')[0].text
            detail['四星比例'] = soup.select('.rating_per')[1].text
            detail['三星比例'] = soup.select('.rating_per')[2].text
            detail['两星比例'] = soup.select('.rating_per')[3].text
            detail['一星比例'] = soup.select('.rating_per')[4].text
df.to_csv(r'D:\douban11.csv',encoding='utf-8-sig')

 保存成csv文件

爬取结果:

 

分析结果:

对爬取在电影评分平均值进行统计,情况大概如下:

所有爬取在此类电影口碑还是很不错在,四五星比较居高的。

 

爬取在此类电影电影中,拍摄影片次数在导演,生成词云如下图。

转载于:https://www.cnblogs.com/1998zzr/p/10787110.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值