文章目录
特征选择
也作为机器学习的数据输入。
有一些特征不需要,即可以删除。有一些特征对于结果会有影响。
特征选择:1手动选择哪些特征需要,哪些不需要。
2若公司给了数据,不好一列一列去看什么特点,数据分布如何,几千万个样本都去看肯定不可以,所以用一些工具进行特征选择。
方差过滤方法:即若某一列方差都一样,即肯定这一列不能作为问题分析的特征了。可以指定方差的大小来过滤,这样可以将相同的,冗余没用的特征都给他删除掉。
将样本特征值都相同的特征删除掉了。
主成分分析–降维
降维度,即将维度数降低,但是不能将数据代表的意思信息减少,即将维度降低,但是里面的信息幷没有损耗,即PCA–将高纬度简化为低维度。
当特征数量不多时,不用PCA。
PCA用于简化数据集,但是可将损失降低到最小。
PCA就是找到这样最好的一条直线即可。
三维就是找一个平面映射即可。数据量减少了。
PCA案例
即先把每张表读出来,按照相同的字段特征进行合并。
交叉分组:行就是用户ID,列就是一个个各种类型的物品
所以要进行主成分分析,即降维度,然后输入到算法中。
机器学习算法分类以及开发流程
利用库和框架做。
预测具体的值,如票房数据即连续,而预测具体的类别则用离散数据。
机器学习开发流程