1.项目说明
- 读取爱奇艺网站数据,对数据进行清洗和整理,分析不同导演电影的好评率,
- 对2001-2016电影影评人数分析,筛选出当年热门电影
2.项目具体要求
- 数据清洗 - 去除空值;时间标签转化
- 分析出不同导演电影的好评率,并筛选出TOP20
- 统计分析2001-2016年每年评影人数总量,分析每年人数变化规律,筛选查看异常值,看异常值是否是当年热门电影
3.实现思路:
- 数据清洗:对空值进行填充,数值型字段填充0,非数值型字段填充’缺失数据’;时间字段格式为’xxxx年xx月xx日’,可以使用datetime.datetime.strptime()方法转化为时间标签。
- 查看数据可知数据是按天获取了一个月的视频数据,因此数据有重复,所以需要筛选出每一部视频最后获取日期的数据。
可以根据剧名取最大值,获取各剧最后日期的数据,然后根据导演分组求’好评数’和’评分人数’的总数,即可计算得到好评率。
根据上映年份分组统计该年份评分人数总数,用该数据绘制面积图,可查看每个年份评分人数总数的变化情况。
- 筛选热门影片可以采用筛选出当年评分人数的异常值,即评分人数特别多的影片。可以先循环绘制各个年份影片评分人数的箱型图。
来查看异常数据的大致情况。然后筛选数各个年份中评分人数超过上外限区间的影片,即可得到当年的热门影片。
4.实现过程:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
import matplotlib
import datetime
import os
warnings.filterwarnings('ignore')
os.chdir('c://test')
data= pd.read_csv('爱奇艺视频数据.csv',engine = 'python',encoding = 'gbk')
def fillnull(df):
cols = df.columns
f