数据
数据特征分析
region 地区 任期 年龄 婚姻地址 收入 就业
退休性别居住 custcat
tenure 任期
age 年龄
marital 婚姻
address 地址
income 收入
employ 就业
retire 退休
gender 性别
reside 居住
custcat 类别
数据已经全部转化为int
概述
KNN 的全称是 K Nearest Neighbors,意思是 K 个最近的邻居。从这个名字我们就能看出一些 KNN 算法的蛛丝马迹了。K 个最近邻居,毫无疑问,K 的取值肯定是至关重要的,那么最近的邻居又是怎么回事呢?其实,KNN 的原理就是当预测一个新的值 x 的时候,根据它距离最近的 K 个点是什么类别来判断 x 属于哪个类别。
数据
1.读取数据并打印形状
作用:读取存储在 csv 文件中的数据,查看数据的行数和列数。
# 从 csv 文件读取数据
data=pd.read_csv('E:/pyworkplace/123/Data/teleCust1000t.csv')
# 打印数据形状
print(data.shape)
2.统计每一类的数量并输出
作用:统计数据集中每一类别的数量,并输出结果。
# 统计每一类的数量
print('统计每一类的数量\n',data.groupby(['custcat']).count()['reside'])
print('统计每一类的数量\n',data['custcat'].value_counts())