一.这段代码的主要目的是读取IMDB电影数据集,并进行一些基本的数据分析
# coding=utf-8
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
# 定义CSV文件的路径
file_path = './IMDB-Movie-Data.csv'
# 使用pandas的read_csv函数读取CSV文件,返回一个DataFrame对象
df = pd.read_csv(file_path)
# 打印出DataFrame的信息,包括索引、数据类型、内存使用等
# 注意这里是方法调用,所以后面有括号
print(df.info())
# 计算'Rating'列的平均值
# 使用pandas的mean方法计算平均值
print(df['Rating'].mean())
# 计算'Director'列中不同导演的数量
# 使用pandas的unique方法去重,然后计算长度
print(len(df['Director'].unique()))
# 获取演员的人数
# 首先将'Actors'列中的字符串按逗号分割成列表
temp_actors_list = df['Actors'].str.split(',').tolist()
# 将嵌套列表展开成一个平面列表
actors_list = [i for j in temp_actors_list for i in j]
# 计算演员列表的长度,即演员的数量
actors_num = len(set(actors_list))
print(actors_num)
在这段代码中,我们首先读取了一个名为IMDB-Movie-Data.csv
的CSV文件,并将其转换为一个pandas