
数据挖掘学习笔记
weixin_37682172
这个作者很懒,什么都没留下…
展开
-
数据挖掘2021-4-27课堂笔记
数据挖掘 监督学习(分类) 无监督学习(聚类) prediction problems:Classification vs. Numeric Prediction 测试集的数据,与训练集应该严格分开。 假如考试的题之前作业都见过,就无法检测是否真正掌握 Decision Tree Induction(决策树归纳法) 直观,容易理解 信息增益,熵 熵高,高不确定性 熵低,低不确定性 连续值:<20, 20~30, 30 ~40, >40 Gain Ratio Gini Index Used i原创 2021-04-27 19:52:48 · 147 阅读 · 0 评论 -
2021-04-13频繁模式挖掘
Pattern Evaluation 1. Limiation of the Support-Confidence 打篮球 不打篮球 总和(行) 吃麦片 400 350 750 不吃麦片 200 50 250 总和(列) 600 400 1000 打篮球->吃麦片 信度 = 400/600=66.7% 但是所有1000学生里,吃麦片地有750/1000=75% support-confidence的问题是没有考虑到不打篮球里吃麦片的比例, 这个信度为350/400=87.原创 2021-04-14 16:12:57 · 135 阅读 · 0 评论 -
第一篇博文
第一篇博文 做数据挖掘第一个互评作业的时候 missing_values_index = df[df['region_2'].isin([np.nan])&~df['region_1'].isnull()].index #定位缺失'region_1'的行的行号index for idx in missing_values_index: df.iloc[idx,8]=df.iloc[idx,7] 这是最终运行的代码,实行结果是选中那些’region_2’的值为空并且’region_1原创 2021-04-06 14:49:32 · 78 阅读 · 0 评论