鸢尾属植物数据分析与预处理-优快云博客

本文链接：https://blog.youkuaiyun.com/sunny_1219/article/details/110457926

这篇博客详细介绍了对鸢尾属植物数据集的一系列操作，包括计算萼片长度的平均值、中位数、标准差，进行数据标准化，寻找百分位数，插入缺失值并检查，筛选特定条件的行，计算相关系数，处理缺失值，统计物种数量，对花瓣长度进行分类，创建体积新列，并进行了多次数据排序。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

Numpy学习-大作业

一、导入鸢尾属植物数据集，保持文本不变
二、求出鸢尾属植物萼片长度的平均值、中位数和标准差（第1列，sepallength）
三、创建一种标准化形式的鸢尾属植物萼片长度，其值正好介于0和1之间，这样最小值为0，最大值为1（第1列，sepallength）。
四、找到鸢尾属植物萼片长度的第5和第95百分位数（第1列，sepallength）。
五、把iris_data数据集中的20个随机位置修改为np.nan值。
六、在iris_data的sepallength中查找缺失值的个数和位置（第1列）。
七、筛选具有 sepallength（第1列）< 5.0 并且 petallength（第3列）> 1.5 的 iris_data行。
八、选择没有任何 nan 值的 iris_data行。
九、计算 iris_data 中sepalLength（第1列）和petalLength（第3列）之间的相关系数
十、找出iris_data是否有任何缺失值。
十一、在numpy数组中将所有出现的nan替换为0
十二、找出鸢尾属植物物种中的唯一值和唯一值出现的数量。
十三、将 iris_data 的花瓣长度（第3列）以形成分类变量的形式显示。定义：Less than 3 --> ‘small’；3-5 --> ‘medium’；’>=5 --> ‘large’。
十四、在 iris_data 中创建一个新列，其中 volume 是 (pi x petallength x sepallength ^ 2）/ 3。
十五、随机抽鸢尾属植物的种类，使得Iris-setosa的数量是Iris-versicolor和Iris-virginica数量的两倍。
十六、根据 sepallength 列对数据集进行排序。
十七、根据 sepallength 列对数据集进行排序。
十八、根据 sepallength 列对数据集进行排序。

一、导入鸢尾属植物数据集，保持文本不变

import numpy as np
fname = './data.txt'
data_raw = np.loadtxt(fname,dtype=object,skiprows=1 ,delimiter=',')
data = []
for i in range(150):
    if(i<50):
        data.append([float(data_raw[i][0]),float(data_raw[i][1]),float(data_raw[i][2]),float(data_raw[i][3]),0])
    elif(i<100):
        data.append([float(data_raw[i][0]),float(data_raw[i][1]),float(data_raw[i][2]),float(data_raw[i][3]),1])
    else:
        data.append([float(data_raw[i][0]),float(data_raw[i][1]),float(data_raw[i][2]),float(data_raw[i][3]),2])
data = np.array(data)
print(data)