鸢尾花数据分析与预处理-优快云博客

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.youkuaiyun.com/DD_PP_JJ/article/details/110407378

综合运用了很多知识，对我来说还是有一定难度的，使用还是不够熟练。

from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

# T1 导入鸢尾属植物数据集，保持文本不变。
data = load_iris()
print(dir(data))

frame = pd.DataFrame(data=data.data, columns=data.feature_names)
print(frame)
print(frame.loc[0])
print(frame['sepal length (cm)'][0])

# T2 求出鸢尾属植物萼片长度的平均值、中位数和标准差（第1列，sepallength）
data_t2 = frame['sepal length (cm)']
print("均值：", np.mean(data_t2))
print("中位数：", np.median(data_t2))
print("标准差：", np.std(data_t2))

# T3 创建一种标准化形式的鸢尾属植物萼片长度，
# 其值正好介于0和1之间，这样最小值为0，最大值为1（第1列，sepallength）
data_min = np.min(data_t2)
data_max = np.max(data_t2)
shifted_data = (data_t2-data_min)/(data_max-data_min)
print(shifted_data)

# T4 找到鸢尾属植物萼片长度的第5和第95百分位数
print(np.percentile(data_t2, [5, 95]))
print('='*50)


# T5 把iris_data数据集中的20个随机位置修改为np.nan值。
# len_data_t2 = len(data_t2)