自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 数据挖掘(第九章关联规则分析)

1.1 Apriori算法(逐层搜素的迭代方法)、FP-growth 算法(频繁项集)、Ecalt算法(深度优先算法)。print("发现的规则数量:",len(rules))print("发现的频繁项集包括:\n",frequent_itemsets)#使用association_rules()函数生成强关联规则。#使用association_rules()函数生成强关联规则。print("生成的强关联规则为:\n",rules)print("生成的强关联规则为:\n",rules)

2025-02-19 18:20:26 658

原创 数据挖掘(第八章聚类分析)

print("NMI指数:%0.3f" % metrics.normalized_mutual_info_score(y,y_pred))print('调整兰德指数AMI: %0.3f' % metrics.adjusted_rand_score(y, y_pred))print("调整兰德指数AMI:%0.3f" % metrics.adjusted_rand_score(y, y_pred))print('sse的值:',model.inertia_) #SSE值,质心的距离之和。

2025-01-21 06:52:36 587

原创 数据挖掘(第七章 集成技术)

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0)#划分训练集和测试集。x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=0)#划分训练集和测试集。

2025-01-18 22:13:23 573

原创 数据挖掘(第六章 基础分类模型及回归模型)

x = df[['Family','Education','Securities Account','CD Account','Online','CreditCard']] #6个特征。ccol = ['Family','Education','Securities Account','CD Account','Online','CreditCard'] #6个特征。print("交叉验证计算KNN的准确度:%s"%(acc/kf.get_n_splits()))

2025-01-13 19:51:52 855

原创 数据挖掘实战(特征选择)

print("L1正则化Logistic回归模型获取的测试精度:\n",selector.estimator_.score(x_test,y_test))print("决策树嵌入法获得的测试精度:\n",selector.estimator_.score(x_test,y_test))print("RFE方法选取特征所获得的测试精度:\n",rfe_selector.score(x_test,y_test))

2025-01-08 17:17:24 1212

原创 数据挖掘实战(第四章 数据预处理)

result1 = pd.merge(left,right,how='left',on=['A','B']) #左连接,主键的列名。df_median= df['数学'].fillna(value=df['数学'].median(),inplace=False)result2 = pd.merge(left,right,how='right',on=['A','B']) #右连接。df_mean= df['数学'].fillna(value=df['数学'].mean(),inplace=False)

2025-01-06 15:03:49 912

原创 数据挖掘实战(第三章 数据探索)

data = np.rint(features[2]) #四舍五入取整采用np.rint/np.trunc截取整数/np.ceil向上截取/np.floor向下截取。print(features.iloc[:,[2,3]].corr(method='pearson')) #服从正态分布。# 7.闵可夫斯基距离:欧氏距离p=2,曼哈顿距离p=1,切比雪夫距离p=无穷,是距离的综合定义,都受到特征量纲的影响。colors = ['#7FFFD4','#458B74','#FFE4C4'] #自定义颜色。

2025-01-03 19:42:03 655

原创 数据挖掘实战(第二章 Python数据挖掘模块)

df1 = pd.DataFrame([['a',1,2],['b',3,4],['c',7,8]],columns=['x','y','z']) #二维列表创建DataFrame对象,columns列的索引。df1 = df.reindex(['李四','张三','王五','陈六'],columns=['数学','语文','英语','计算机'])s1 = pd.Series([0,1,2,np.nan],index = ['a','b','c','d']) #index索引。

2025-01-01 21:17:35 694 1

原创 数据可视化

通过对比这两个图表,我们可以看到2020年和2016年奥运会的奖牌榜情况。中国在这两个奥运会上都表现出色,特别是在总数上排名靠前。美国在这两个奥运会上也表现强劲,但2020年的金牌数量略少于2016年。其他国家如日本、英国和俄罗斯在这两个奥运会上都有不错的表现,但奖牌总数相对较少

2024-06-12 11:33:20 814

原创 数据可视化

将问卷调查的数据以直观、易于理解的方式呈现给观众,通过颜色和堆叠的条形图可以清晰地看出每个问题的满意度分布情况。

2024-06-12 11:25:27 403

原创 数据可视化仪表盘的设计与制作

通过不同类型的图表展示了不同科目的成绩趋势、及格率、排名等信息。使用了多种颜色和字体,以提高图表的可读性。添加图表添加了标题和轴标签,使之一目了然。

2024-06-11 17:30:02 1834

原创 动态数据图表的设计与制作

实施了一个综合性的数据可视化项目,不仅展示了强大的数据分析能力,还体现了对matplotlib高级特性的熟练应用。进一步的优化和交互性增强将使其成为更加完善的可视化解决方案。

2024-06-11 17:20:44 1917

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除