上周学习了吴恩达的降维章节,并且自学了随机森林算法。今天完成了简单的编程练习,并作一些简单的心得笔记。
随机森林算法:
随机森林可以简单的看作是多颗决策树的集合,最终的模型结果由这些树的众数来决定。
优点:
随机森林的既可以用于回归也可以用于分类任务,并且很容易查看模型的输入特征的相对重要性。随机森林算法被认为是一种非常方便且易于使用的算法,因为它是默认的超参数通常会产生一个很好的预测结果。超参数的数量也不是那么多,而且它们所代表的含义直观易懂。
随机森林有足够多的树,分类器就不会产生过度拟合模型。
缺点:
由于使用大量的树会使算法变得很慢,并且无法做到实时预测。一般而言,这些算法训练速度很快,预测十分缓慢。越准确的预测需要越多的树,这将导致模型越慢。在大多数现实世界的应用中,随机森林算法已经足够快,但肯定会遇到实时性要求很高的情况,那就只能首选其他方法。当然,随机森林是一种预测性建模工具,而不是一种描述性工具。也就是说,如果您正在寻找关于数据中关系的描述,那建议首选其他方法。
适用范围:
随机森林算法可被用于很多不同的领域,如银行,股票市场,医药和电子商务。在银行领域,它通常被用来检测那些比普通人更高频率使用银行服务的客户,并及时偿还他们的债务。同时,它也会被用来检测那些想诈骗银行的客户。在金融领域,它可用于预测未来股票的趋势。在医疗保健领域,它可用于识别药品成分的正确组合,分析患者的病史以识别疾病。除此之外,在电子商务领域中,随机森林可以被用来确定客户是否真的喜欢某个产品。
PCA(主成分分析法):
PCA是一种无监督学习算法。它主要是为了数据降维所诞生的,当然了,它也可以用于数据还原,提高数据维度。它的主要原理就是,在数据降维的过程中,不断寻找距离所有数据点最近的低维平面,然后将数据点对这个平面进行投影,以便达到数据降维的目的。这种降维不是简单的去除某几种特征,而是在减少特征数量的过程中,将所有特征的数据本身也改变了。
PCA主要的2个作用,一是将数据压缩,以便减少空间磁盘的占用。二是降低维度,提高后续机器学习算法