
数据挖掘课程
文章平均质量分 69
我是小白新新
这个作者很懒,什么都没留下…
展开
-
实验四:基于内容的推荐
print('基于 cosine 相似度的推荐结果:',cosine_recommendation(test_title))原创 2024-04-07 15:10:34 · 309 阅读 · 0 评论 -
KNN课堂(分类课堂(可用kd树/特征归一化提高精度)))
2. weights:可以是'uniform'或者是'distance',表示在计算最近邻的距离时考虑的权重,'uniform'表示所有最近邻的距离权重都一样,而'distance'表示距离越近的最近邻权重越大。3. algorithm:可以是'ball_tree'、'kd_tree'或者'brute',表示使用何种算法来计算最近邻的距离。4. leaf_size:整数值,表示在构建 ball_tree 或者 kd_tree 时考虑的叶节点的尺寸。# 将数据集分为训练集和测试集。原创 2024-04-07 09:57:38 · 482 阅读 · 0 评论 -
实验一:关联规则 (见U盘)
除此之外,还可以将 FP-Growth 替换为Apriori 或者 FPMax,Apriori 它能够发现任意长度的频繁项集,并能够发现复杂的关联规则,FPMax 通过剪枝和过滤来减少搜索空间,从而提高了算法的效率,找到频繁模式的最大项集。['菠萝', '洋葱', '香料', '芸豆', '鸡蛋', '酸奶'], ['牛奶', '苹果', '芸豆', '鸡蛋'],默认值为 None,表示不限制最大项数。dataset = [['牛奶', '洋葱', '香料', '芸豆', '鸡蛋', '酸奶'],原创 2024-03-15 21:31:19 · 920 阅读 · 0 评论 -
课堂:Apriori + 关联规则
本小节主要是学习关联规则,但是学习这个之前,我们要学习Apriori算法求的频繁集。#na_filter=False,表示空值导入后会显示为空,而不是NaN。TE = TransactionEncoder()#类实例化。TE = TransactionEncoder()#类实例化。#对交易数据进行one-hot编码。#对交易数据进行one-hot编码。6.导出关联规则挖掘结果。#导出关联规则挖掘结果。#数据格式转为数据框。原创 2024-03-15 21:23:47 · 904 阅读 · 0 评论 -
关联规则 (案例)
原创 2024-03-14 15:32:13 · 361 阅读 · 0 评论 -
实验七 综合实验
dataset_raw = training_raw._append(test_raw) # 合并数据集# 为了避免索引引起的不必要错误,对索引进行处理。i = int(math.floor(math.log(size_bytes, 1024))) # 获取占用内存的级别(向下取整)dataset_raw.drop('index', inplace=True, axis=1) # 删除还原的索引。test_raw.shape # : (16281, 15),数据的维度# 训练集和测试集加到一起做分析。原创 2024-03-05 10:27:19 · 903 阅读 · 0 评论