目录
一、目的
1、分析手机中某些功能在不同的功能组合中所起的作用;
2、找出消费者对手机偏好程度的影响因素,以及其影响程度。
二、数据来源和相关说明
1、数据来源
数据来源于对北京大学光华管理学院的MBA学生和高级经理培训班的学员,关于不同款手机的偏好程度的调查。
import os
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
# 参数设置
plt.rcParams['font.sans-serif']=['SimHei'] #中文
plt.rcParams['axes.unicode_minus'] = False #负号
filePath = r'E:\CH5'
fileName = r'ceilphone.csv'
# 读取本地文件
df_raw = pd.read_csv(open(os.path.join(filePath, fileName)))
2、数据信息
共1451条样本,包含8个变量。
print(df_raw.info())
print(df_raw.head())
3、变量信息
# 变量列表
str_cols = ['W1', 'W2', 'W3', 'W4', 'W5', 'W6' ]
num_cols = ['W7']
x_cols = str_cols + num_cols
y_col = 'score'
(1)自变量
- 手机品牌(W1):Nokia、Samsung、Motorola、Bird
- 有无数码相机(W2):有、无
- 能否收看电视(W3):能、不能
- 有无手写笔(W4):有、无
- 电话本能否多条记录(W5):能、不能
- 有无MP3(W6):有、无
- 游戏数目(W7):3、5、7(连续值)
for i in x_cols:
print('-'*10+i+'\n', df_raw[i].value_counts())
(2)因变量
- 对该产品的偏好程度(score):1=根本不喜欢,2=比较不喜欢,3=一般喜欢,4=比较喜欢,5=非常喜欢(有序值)
print(df_raw[num_cols+[y_col]].describe().T)
三、描述性分析
df_clean = df_raw.copy()
print(df_clean.info())