数据挖掘
夏风之羽
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
维数灾难的简单验证
上数据挖掘课的时候,有点好奇为什么数据维数高时最近邻无意义,现在简单验证了一下 数据模拟 假定所有数据的每一维特征都在[0,1)[0,1)[0,1)内,利用numpy能方便地生成这样的数据: def generate_data(size, d): return np.random.random((size,d)) 开始验证 距离计算方式采用欧氏距离: def compute_distan...原创 2019-04-27 22:14:15 · 435 阅读 · 1 评论 -
决策树算法中基尼指数与信息增益的比较
问题提出 在自己实现决策树算法的时候,发现生成的id3树和cart树一模一样。竟然每个决策节点都选择了同一属性的同一划分。这让我很意外,于是改变了随机种子值,改变训练集的大小,结果发现无一例外它们都是一样的。由此我提出了一个疑问:基尼指数和信息增益是等价的吗? 如果等价,那干嘛还要两个算法?如果不等价,为什么生成的树总是一样的呢? 二者比较 直接取iris数据集中的一部分作为训练集,并指定一个属性...原创 2019-05-02 20:03:05 · 6649 阅读 · 3 评论
分享