数据集筛选
文章平均质量分 72
唐英雄
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于pandas的粗糙集依赖度约简算法思路及实现
对于粗糙集的算法这里不再过多赘述,主要讲解下实现思路和张贴代码。 实验是根据山东大学学报的基于粗糙集的协同过滤算法研究进行复现。 首先使用DataFrame读取Movielens的数据集 这里的决策系统及决策表的建立是将用户当作样本,项目当成属性,决策属性为用户的划分。 选择一个条件子集C,同时建立子集B⊆C,条件a∈C-B。 使用子集C对样本进行划分并求出下近似集。使用子集B对样本进行划分求出另一下近似集。 依据计算公式求出依赖度,并删除符合约简条件的属性a。 重复4、5步骤直到遍.原创 2021-10-25 20:07:23 · 5083 阅读 · 0 评论 -
关于推荐系统-数据分析中指定数据集稀疏度解决方案及思路
最近在做用Mvielens100K数据集做推荐系统算法训练,为了在不同高度的稀疏度当中获得实验结果必须对原数据集进行进一步筛选。 于是有了下面这个指定数据集稀疏度代码。 基础数据格式是python pandas里的DataFrame,和numpy的array。 因为需要做的是稀疏度到98%的300*500,3000条记录的稀疏数据集,所以平均每个用户是10条。 Temp的含义是不够3000可以额外增加至3000(记录缺失条数) 只不过此模块还没完善但是已经达到要求所以没有继续优化。 下附源码供大原创 2021-05-15 12:54:49 · 1927 阅读 · 2 评论
分享