这篇文章想讲述的是如何做 特征选择。
首先,什么是特征选择呢? 为什么要做它呢?
特征选择就是我们从一开始的特征集合中找一个特征子集,在这个特征子集中,学习算法能比在原特征集合中学得更好。
那么,我们该如何进行特征选择呢?
(贪心的方式在找,如果不用贪心的方式,而去遍历所有属性组合的话,当属性多的适合,会遭遇到组合爆炸的问题,现阶段的算力是严重不足啊)
分为两个步骤: 子集搜索 和 子集评价
具体解释一下 是如何进行的,
(子集搜索)
最开始,我们的目标子集是从单属性开始的,
我们的打算是,先从所有1个属性的特征中找到最棒的特征,然后定下该特征,并在余下的所有特征中选一个特征,让这个选中的特征和 刚才定下来的特征组合在一起。
然后进行比较,
若单个特征的方式比两个特征的方式能更好的让学习算法进行学习,则我们直接在1个特征的时候就停止,因此,特征选择选中了一个特征。
如果,单个特征 的效果 不如两个特征的效果,则放弃该单个特征的方式,并在2个特征集合的基础上往三个特征集合进行寻找。。。。。然后迭代下去,直到某一刻,d个特征集合中 最棒的特征集合。比 d+1 个特征集合中最棒的 d+1个特征集合还要棒,那么我们的算法停止在d个集合的时候。此时,特征选择 选中 了该 d个特征。
(子集评价)
在上面的过程中,我们需要判断一个特征子集是否优于另一个特征子集
因此需要进行特征评价,但是,我们以什么方式进行特征评价呢?
在决策树那个章节中 曾经介绍了 信息增益 这一评价指标。 我们可以用这个评价指标来判断 一个 特征子集是否优于另一个。
什么是信息增益呢?
我不会告诉你们公式是什么,这个你们完全能搜索到,我想说的是 这个名词的 含义,或者说是 对其的直觉。
如果有一个盒子, 我们的目标是尽可能的了解该盒子的内容,但是盒子的内部被完全包裹住了,我们不知道里面有什么。此时我们定义 未知的量为A(仅用来暂时表示我们不知道的量),
但是这个时候,突然有人告诉我们,这个盒子里一定是没有 铅笔的 (铅笔是随便举的例子,其实是什么都可以),由此,我们对该盒子的认知进了一步,我们知道该盒子中不可能有 铅笔的,
故事到此为止,现在,我们来看看 信息增益是什么?
信息增益 是 我们消除了的 对于 未知 的量。
还是不好理解, 像故事中说的, 一开始我们对 盒子的内部完全不了解,但是后来别人告诉了我们一些信息,通过该信息,我们对盒子的了解加深了,这个加深的 多少、程度 便称之为 信息增益。
现在再看刚才的话 : 消除 未知 量的多少 ,这个和 加深对一个物体的了解程度。 这是就是一个意思啦。
ok,
888~
本文深入探讨特征选择的重要性,介绍了一种逐步迭代的特征选择方法,通过对比不同特征组合的学习效果,确定最优特征集合。同时,文章阐述了信息增益的概念,作为评估特征子集优劣的指标。
885

被折叠的 条评论
为什么被折叠?



