Abstract: IMDB电影数据分析练习。
1.项目简介
数据集
包含来自MovieLens 电影推荐服务的5星评分和文本标记数据和来自IMDB1950-2012年IMDB TOP10000排行榜数据
MovieLens数据集包含27278部电影的20000263份评分和465564次标签应用
实践内容
1.什么样题材的电影评分会相对较高(较低)
2.电影时长对评分是否有影响
3.不同年代什么类型电影较受欢迎
4.其他自选角度
2.数据整理步骤
1.构建数据框:理想情况下,把所有数据放入这个数据框中
2.清洗数据:对构建的数据框进行数据清理,它应该具有以下属性:
Each row describes a single object
Each column describes a property of that object
Columns are numeric whenever appropriate
3.探索全局特征:通过直方图,散点图,聚合函数等获得一个数据的全局的了解
4.探索分组特征。通过一些分组操作分析数据集
3.实践
3.1 数据整理与探索
%matplotlib inline import matplotlib.pyplot as plt import pandas as pd import numpy as np #tell pandas to display wide tables as pretty HTML tables pd.set_option('display.width', 500) pd.set_option('display.max_columns', 100) def remove_border(axes=None, top=False, right=False, left=True, bottom=True): """ Minimize chartjunk by stripping out unnecesasry plot borders and axis ticks The top/right/left/bottom keywords toggle whether the corresponding plot border is drawn """ ax =

本文介绍了使用IMDB和MovieLens数据集进行电影数据分析的实践,包括数据整理、探索和分析。通过对电影题材、时长、年代和类型的探索,揭示了影响评分和受欢迎程度的因素。同时,分享了数据清洗和构建数据框的步骤,以及如何利用直方图和散点图进行数据探索。
最低0.47元/天 解锁文章
1288





