几个月前,我在悉尼参加了一个会议。会上,fast.ai向我介绍了一门在线机器学习课程,那时候我根本没注意。这周,在Kaggle竞赛寻找提高分数的方法时,我又遇到了这门课程。我决定试一试。
这是我从第一堂课中学到的东西,这是一个1小时17分钟的视频,介绍了随机森林。
课的主题是随机森林,杰里米(讲师)提供了一些基本信息以及使用Jupyter Notebook的提示和技巧。

Jeremy谈到的一些重要的事情是,数据科学并不等同于软件工程。在数据科学中,我们做的是设计模型。虽然软件工程有自己的一套实践,但数据科学也有自己的一套最佳实践。
模型构建和原型设计需要一个交互的环境,是一个迭代的过程。我们建立一个模型。然后,我们采取措施来改善它。重复直到我们对结果满意为止。
随机森林

我听说过“随机森林”这个词,我知道它是现有的机器学习技术之一,但是老实说,我从来没有想过要去了解它。我一直热衷于更多地了解深度学习技术。
从这次演讲中,我了解到随机森林确实很棒。
它就像一个通用的机器学习技术,既可以用于回归,也可以用于分类。这意味着你可以使用随机森林来预测股票价格以及对给定的医疗数据样本进行分类。
一般来说,随机森林模型不会过拟合,即使它会,它也很容易阻止过拟合。
对于随机森林模型,不需要单独的验证集。
随机森林只有一些统计假设。它也不假设你的数据是正态分布的,也不假设这些关系是线性的。
它只需要很少的特征工程。
因此,如果你是机器学习的新手,它可以是一个很好的起点。

本文介绍了随机森林的基础知识,包括其在回归和分类问题中的应用,以及为什么它对新手友好。讨论了随机森林避免过拟合的能力,以及在模型构建中的优势。还提到了数据科学中的其他概念如维数诅咒和没有免费午餐定理,并分享了在Jupyter Notebook中的一些实用技巧。
最低0.47元/天 解锁文章
1206

被折叠的 条评论
为什么被折叠?



