综合运用了很多知识,对我来说还是有一定难度的,使用还是不够熟练。
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
# T1 导入鸢尾属植物数据集,保持文本不变。
data = load_iris()
print(dir(data))
frame = pd.DataFrame(data=data.data, columns=data.feature_names)
print(frame)
print(frame.loc[0])
print(frame['sepal length (cm)'][0])
# T2 求出鸢尾属植物萼片长度的平均值、中位数和标准差(第1列,sepallength)
data_t2 = frame['sepal length (cm)']
print("均值:", np.mean(data_t2))
print("中位数:", np.median(data_t2))
print("标准差:", np.std(data_t2))
# T3 创建一种标准化形式的鸢尾属植物萼片长度,
# 其值正好介于0和1之间,这样最小值为0,最大值为1(第1列,sepallength)
data_min = np.min(data_t2)
data_max = np.max(data_t2)
shifted_data = (data_t2-data_min)/(data_max-data_min)
print(shifted_data)
# T4 找到鸢尾属植物萼片长度的第5和第95百分位数
print(np.percentile(data_t2, [5, 95]))
print('='*50)
# T5 把iris_data数据集中的20个随机位置修改为np.nan值。
# len_data_t2 = len(data_t2)