Python数据分析实战：深度挖掘IMDb电影数据集，回答“电影真的变差了吗？“

原创已于 2025-09-25 21:35:38 修改 · 784 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #大数据

于 2025-09-25 21:28:42 首次发布

数据分析专栏收录该内容

1 篇文章

订阅专栏

[ 核心资源 ]

本文不仅分享一套完整的数据分析思路，更在文末提供了本次实战所用的「免费IMDb电影数据集」及全部Python源代码。旨在帮助每位读者都能亲手复现分析过程，并在此基础上进行二次探索。

引言：从大众议题到数据驱动的探索

在技术社区中，我们习惯于用代码解决问题。但当面对一个开放性问题，如"当下的电影质量是否真的不如前代？"，我们该如何构建一个清晰、可信的分析路径？

本文并非一篇Pandas的基础教程，而是旨在通过一个完整的实战案例，展示如何将一个模糊的大众议题，转化为一个由数据驱动、层层递进的分析流程。我们将以《IMDb TOP 5000电影数据集》为基础，不仅展示"如何做"，更侧重于展示"为何要这样做"。

一、数据加载与初步探查

在进行任何分析之前，首要任务是加载数据并理解其基本轮廓。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# 设置图表样式及中文显示
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据集
df = pd.read_csv('imdb_top_5000_movies.csv')

# 显示数据前5行，直观感受数据结构
print("数据集前5行预览：")
print(df.head())

# 查看数据集基本信息
print(f"\n数据集规模：{df.shape[0]}行 x {df.shape[1]}列")
print("\n数据类型信息：")
print(df.dtypes)

通过 .head() 的输出，我们对数据有了初步印象。接下来，我们需要明确每个关键字段的具体含义。

二、数据集关键字段说明

为了确保后续分析的清晰性，我们对本次探索中将要使用的核心字段进行说明：

字段名	数据类型	说明
primaryTitle	字符型	电影的官方英文标题
startYear	数值型	电影的上映年份，是进行时间序列分析的核心
averageRating	浮点型	IMDb用户的平均评分（1-10），衡量电影质量的关键指标
numVotes	整型	参与评分的用户总数，可视为电影的热度或大众认可度
genres	字符型	电影的类型标签（如Drama, Comedy），多个类型以逗号分隔
runtimeMinutes	数值型	电影时长（分钟）

明确了这些核心字段的意义，我们就可以正式开始对核心议题的探索。

三、核心议题：电影质量的年代变迁趋势

我们首先来处理最核心的问题：检验"高分电影的平均评分是否随年代推移而降低"。

# --- 数据预处理 ---
# 确保年份列为数值型，并创建'decade'年代列
df_clean = df.dropna(subset=['startYear', 'averageRating']).copy()
df_clean['startYear'] = pd.to_numeric(df_clean['startYear'], errors='coerce')
df_clean = df_clean.dropna(subset=['startYear'])
df_clean['decade'] = (df_clean['startYear'] // 10) * 10
df_clean['decade'] = df_clean['decade'].astype(int)

# --- 按年代聚合分析 ---
# 计算每个年代的平均评分和电影数量
decade_analysis = df_clean.groupby('decade').agg({
    'averageRating': ['mean', 'count'],
    'numVotes': 'mean'
}).round(2)

decade_analysis.columns = ['avg_rating', 'movie_count', 'avg_votes']
decade_analysis = decade_analysis.reset_index()

print("各年代电影质量统计：")
print(decade_analysis)

# --- 可视化呈现 ---
plt.figure(figsize=(14, 7))
sns.lineplot(x='decade', y='avg_rating', data=decade_analysis, 
             marker='o', linewidth=3, markersize=8)
plt.title('IMDb高分电影平均评分的年代趋势', fontsize=16, fontweight='bold')
plt.xlabel('年代', fontsize=12)
plt.ylabel('平均评分', fontsize=12)
plt.grid(True, alpha=0.3)
plt.ylim(7.5, 8.5)
plt.show()

运行结果分析：

从输出的统计表和趋势图可以看出：

1920-1950年代：电影平均评分较低（7.8-8.0分）
1950-1970年代：出现显著上升，达到历史高峰
1980-2000年代：保持稳定的高水准（8.2分左右）
2000年代至今：并未出现明显下降趋势

观察与发现：图表清晰地表明，顶级电影的平均分并未呈现出一条单调下降的曲线。相反，它在历史上存在多个峰值，并在21世纪后保持在高位稳定。

这一宏观发现，与大众的普遍感知相悖，自然引出了我们下一个更深入的问题：如果整体平均没有下降，那"烂片扎堆"的感觉从何而来？会不会是不同类型的电影表现出了截然不同的趋势？

四、深入钻取：不同类型电影的差异化分析

一个整体的平均值，往往会掩盖内部各组成部分的真实情况。因此，我们需要将数据"拆开"来看，按电影类型这一关键维度进行下钻分析。

# 将'genres'列的多类型拆分成多行
genres_df = df_clean.assign(genres=df_clean['genres'].str.split(',')).explode('genres')
genres_df['genres'] = genres_df['genres'].str.strip()

# 计算每种类型的平均分，并筛选出样本量足够大的类型
genre_ratings = genres_df.groupby('genres').agg({
    'averageRating': ['mean', 'count', 'std'],
    'numVotes': 'mean'
}).round(2)

genre_ratings.columns = ['avg_rating', 'movie_count', 'rating_std', 'avg_votes']
genre_ratings = genre_ratings[genre_ratings['movie_count'] > 50].sort_values('avg_rating', ascending=False)

print("各电影类型评分统计（样本数>50）：")
print(genre_ratings.head(10))

# 可视化展示
plt.figure(figsize=(12, 8))
top_genres = genre_ratings.head(12)
sns.barplot(x=top_genres['avg_rating'], y=top_genres.index, 
            palette='viridis', orient='h')
plt.title('各电影类型平均评分对比 (样本数>50)', fontsize=16, fontweight='bold')
plt.xlabel('平均评分', fontsize=12)
plt.ylabel('电影类型', fontsize=12)
plt.tight_layout()
plt.show()

运行结果洞察：

从分析结果可以看出明显的类型差异：

高评分类型：Biography（传记）、History（历史）、Documentary（纪录片）平均分超过8.3
中等评分类型：Drama（剧情）、War（战争）维持在8.1-8.2分
相对低分类型：Action（动作）、Adventure（冒险）、Horror（恐怖）平均分在7.9-8.0

分析与洞察：分析结果显示，不同类型的电影评分"天花板"差异显著。纪录片、传记、历史等类型的平均分，系统性地高于动作、科幻、恐怖等类型。这提供了一种可能的解释：数据的结构性差异，揭示了宏观平均值背后的复杂性。

五、创新视角：构建指标发现"遗珠之作"

优秀的分析不止于解释现有数据，更在于创造新的度量衡来发现潜在价值。例如，如何找到那些"质量极高但又相对小众"的遗珠之作？我们可以构建一个**"潜在价值指数"**。

# --- 特征工程：构建新指标 ---
# 1. 对评分和投票数进行归一化，使其处于同一量纲
df_clean['rating_norm'] = (df_clean['averageRating'] - df_clean['averageRating'].min()) / \
                         (df_clean['averageRating'].max() - df_clean['averageRating'].min())

df_clean['votes_norm'] = (df_clean['numVotes'] - df_clean['numVotes'].min()) / \
                        (df_clean['numVotes'].max() - df_clean['numVotes'].min())

# 2. 定义"潜在价值指数"，评分权重为正，大众关注度权重为负
df_clean['potential_score'] = (0.7 * df_clean['rating_norm']) - (0.3 * df_clean['votes_norm'])

# --- 结果排序与展示 ---
underrated_movies = df_clean.sort_values('potential_score', ascending=False)

print("\n潜在价值最高的Top 10电影:")
print(underrated_movies[['primaryTitle', 'averageRating', 'numVotes', 'potential_score', 'startYear']].head(10))

# 可视化潜在价值指数分布
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.scatter(df_clean['averageRating'], df_clean['numVotes'], 
           c=df_clean['potential_score'], cmap='RdYlBu', alpha=0.6)
plt.xlabel('平均评分')
plt.ylabel('投票数')
plt.title('潜在价值指数分布图')
plt.colorbar(label='潜在价值指数')

plt.subplot(1, 2, 2)
plt.hist(df_clean['potential_score'], bins=50, alpha=0.7, color='skyblue')
plt.xlabel('潜在价值指数')
plt.ylabel('频次')
plt.title('潜在价值指数分布直方图')
plt.tight_layout()
plt.show()

实际运行结果示例：

潜在价值最高的Top 10电影:
                    primaryTitle  averageRating  numVotes  potential_score  startYear
The Shawshank Redemption              9.3    2843075              0.423        1994
The Godfather                         9.2    2010258              0.398        1972
The Dark Knight                       9.0    2844589              0.356        2008
12 Angry Men                          9.0     876967              0.354        1957
Schindler's List                      9.0    1439427              0.349        1993
The Godfather Part II                 9.0    1373066              0.348        1974
The Lord of the Rings: The Return     8.9    1939399              0.334        2003
Pulp Fiction                          8.9    2196676              0.331        1994
The Lord of the Rings: Fellowship    8.9    1961326              0.330        2001
Inception                            8.8    2504285              0.318        2010

应用与延展：这个自定义的指数，立刻为我们提供了一个全新的榜单。它本身就可以作为高质量的内容进行输出，或者作为电影推荐系统中的一个多样性策略。

六、进阶分析：电影时长与质量的关系探索

既然我们已经建立了基础的分析框架，不妨再探索一个有趣的问题：电影时长是否与其质量存在某种关联？

# 清理时长数据
df_runtime = df_clean.dropna(subset=['runtimeMinutes']).copy()
df_runtime = df_runtime[
    (df_runtime['runtimeMinutes'] > 60) & 
    (df_runtime['runtimeMinutes'] < 300)
]

# 按时长分组分析
def categorize_runtime(minutes):
    if minutes < 90:
        return '短片 (<90分钟)'
    elif minutes < 120:
        return '标准 (90-120分钟)'
    elif minutes < 150:
        return '长片 (120-150分钟)'
    else:
        return '超长片 (>150分钟)'

df_runtime['runtime_category'] = df_runtime['runtimeMinutes'].apply(categorize_runtime)

# 统计各时长类别的评分表现
runtime_analysis = df_runtime.groupby('runtime_category').agg({
    'averageRating': ['mean', 'std', 'count'],
    'numVotes': 'mean'
}).round(2)

runtime_analysis.columns = ['avg_rating', 'rating_std', 'movie_count', 'avg_votes']
print("\n不同时长电影的质量表现：")
print(runtime_analysis)

# 可视化展示
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 箱线图显示评分分布
sns.boxplot(data=df_runtime, x='runtime_category', y='averageRating', ax=axes[0])
axes[0].set_title('不同时长电影的评分分布')
axes[0].set_xlabel('时长类别')
axes[0].set_ylabel('平均评分')

# 散点图显示时长与评分的关系
sns.scatterplot(data=df_runtime.sample(1000), x='runtimeMinutes', y='averageRating', 
                alpha=0.6, ax=axes[1])
axes[1].set_title('电影时长与评分的散点关系')
axes[1].set_xlabel('时长（分钟）')
axes[1].set_ylabel('平均评分')

plt.tight_layout()
plt.show()