
机器学习-特征构建
我很平凡的
机器学习 大数据 推荐系统
展开
-
机器学习 hard concepts 特征构建(feature construction)
最近在看关于特征构建的文章,在此做下学习记录。接下来的关于特征构建的博文将按[1]的过程进行记录,并在记录的过程中补充涉及特征构建的其他文献。 谈到特征构建,我们就会问什么是特征构建、为什么进行特征构建。下面首先回答为什么要做特征构建。1、为什么要进行特征构建 首先,对术语进行相关说明。 selective induction (SI):SI假设具有相似属性的instance具原创 2016-11-19 16:41:24 · 3764 阅读 · 0 评论 -
数据挖掘:属性
数据对数据挖掘是至关重要的,只有充分认识数据才能选择合适的挖掘方法,进而得到不错的挖掘效果。 1、属性与度量[详细内容参考《introduction to data mining》] 属性是对象的特性,它因对象而异,或随时间而变化。测量标度是将数值与符号值与对象属性相关联的规则。属性与属性值是不一样的,例如用户的ID属性用整数表示,ID属性是没有加减操作的,而ID属性值是可以加减的,但这种操作是原创 2016-11-27 16:34:29 · 1765 阅读 · 0 评论 -
提升树算法
这篇博文主要参考了李航《统计学习方法》与论文:GREEDY FUNCTION APPROXIMATION: A GRADIENT BOOSTING MACHINE。这里简单记录下对提升树的简单理解。 1、梯度提升算法 有关梯度提升算法的细节请参考上述论文,这里直接贴出梯度提升算法的过程: 简单谈谈对该算法的理解:第三行表示组合模型为Fm-1时,下一步迭代的最速下降方向。第四行表示弱分类器原创 2017-02-25 12:04:31 · 1461 阅读 · 0 评论 -
mrmr 最大关联度-最小冗余度 特征选择
在做特征选择时,可能面临两个问题:特征与类别预测有多大相关性,特征之间有多大冗余度。在特征选择中,“最好的m个特征不一定是m个最好的特征”,从相关度与冗余度来看,最好的m个特征是指与分类最相关的特征,但由于最好的m个特征之间可能存在冗余,因此最相关的m个特征并不一定比其他m个特征产生更好的分类准确率。可以看出,特征选择可以分为两个过程:1、怎样度量特征相关性。2、怎样解决特征之间的冗余。 1、互信原创 2017-03-05 11:05:16 · 7530 阅读 · 0 评论