1 项目简介
1.1 数据描述
(1)数据来源
本次分析所采用的数据来源于kaggle上的Video Game Sales数据集 ,该数据集通过爬虫从vgchartzwangz网站上获取,主要描述了全球市场上电子游戏的一个销售情况。电子游戏(Video Games,少部分学者使用Electronic Games)又称电玩游戏(简称电玩),是指所有依托于电子设备平台而运行的交互游戏。根据媒介的不同多分为五种:主机游戏(或称家用机游戏、电视游戏)、掌机游戏、电脑游戏、街机游戏和移动游戏(主要是手机游戏)。一般市场上我们所接触的游戏都是电子游戏。
(2)数据描述
首先将数据集导入Python中进行分析,观察数据集所存在的字段及属性。
#导入常用包
import numpy as np
import pandas as pd
#导入数据
data=pd.read_csv('vgsales.csv')
data.info() #给出样本数据的相关信息概览
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
Rank 16598 non-null int64
Name 16598 non-null object
Platform 16598 non-null object
Year 16327 non-null float64
Genre 16598 non-null object
Publisher 16540 non-null object
NA_Sales 16598 non-null float64
EU_Sales 16598 non-null float64
JP_Sales 16598 non-null float64
Other_Sales 16598 non-null float64
Global_Sales 16598 non-null float64
dtypes: float64(6), int64(1), object(4)
memory usage: 1.4+ MB
可以知道数据集有16598个样本,11个字段,各个字段的主要含义如下:
1.2 分析背景及目的
根据现有的字段,可以从用户、发行商、市场三个方面去分析,得到近年来电子游戏的市场销售情况,具体关注的问题和指标如下:
(1)用户层面
最受用户喜爱的前十款游戏是什么?
用户最常玩的游戏类型是什么?
用户常用的游戏平台是什么?
(2)发行商层面
销量最好的发行商是?前十有哪些?
发行商的发布游戏数量情况?
(3)市场层面
全球市场电子游戏销售额如何变化?
四大地区市场总额如何变化?
主流游戏类型、游戏平台的变化。
(4)数据预测
预测未来两年电子游戏销售总额
1.3 分析思路
进一步,通过数据分析完成对上面问题的回答,分析思路为先采用Python进行数据清洗,再通过tableau进行数据分析及可视化。
2 数据清洗
2.1 缺失值处理
data.head()
Rank | Name | Platform | Year | Genre | Publisher | NA_Sales | EU_Sales | JP_Sales | Other_Sales | Global_Sales | |
---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | Wii Sports | Wii | 2006.0 | Sports | Nintendo | 41.49 | 29.02 | 3.77 | 8.46 | 82.74 |
1 | 2 | Super Mario Bros. | NES | 1985.0 | Platform | Nintendo | 29.08 | 3.58 | 6.81 | 0.77 | 40.24 |
2 | 3 | Mario Kart Wii | Wii | 2008.0 | Racing | Nintendo | 15.85 | 12.88 | 3.79 | 3.31 | 35.82 |
3 | 4 | Wii Sports Resort | Wii | 2009.0 | Sports | Nintendo | 15.75 | 11.01 | 3.28 | 2.96 | 33.00 |
4 | 5 | Pokemon Red/Pokemon Blue | GB | 1996.0 | Role-Playing | Nintendo | 11.27 | 8.89 | 10.22 | 1.00 | 31.37 |
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16598 entries, 0 to 16597
Data columns (total 11 columns):
Rank 16598 non-null int64
Name 16598 non-null object
Platform 16598 non-null object
Year 16327 non-null float64
Genre 16598 non-null object
Publisher 16540 non-null object
NA_Sales 16598 non-null float64
EU_Sales 16598 non-null float64
JP_Sales 16598 non-null float64
Other_Sales 16598 non-null float64
Global_Sales 16598 non