机器学习与R语言入门指南
1. 机器学习算法选择
在分类问题中,需要仔细思考将学习问题与合适的分类器相匹配。不同算法之间存在各种区别,深入研究每个分类器才能发现这些区别。例如,决策树生成的模型易于理解,而神经网络的模型则难以解释。在设计信用评分模型时,这一区别很重要,因为法律通常要求告知贷款申请人被拒的原因。即使神经网络在预测贷款违约方面表现更好,但如果无法解释其预测结果,那么它在这个应用场景中就毫无用处。
为了辅助算法选择,每种学习算法的关键优缺点都会被列出。有时某些算法的特性会使它们不适合某些场景,但很多情况下,算法的选择是随意的。当预测准确性是主要目标时,可能需要测试多个模型并选择最合适的,或者使用元学习方法结合多个不同的学习器,以发挥各自的优势。
2. R语言在机器学习中的应用
许多机器学习所需的算法并非R基础安装的一部分,而是由大量专家社区免费共享的。这些算法以包的形式存在,需要手动安装在R基础之上。由于R是免费的开源软件,使用这些功能无需额外付费。
R包是可以在用户之间共享的R函数集合。对于机器学习中涉及的各种算法,都有免费的R包可用。如果想了解R包的全貌,可以访问综合R存档网络(CRAN),它由世界各地的网站和FTP站点组成,提供最新版本的R软件和包。CRAN的网址是: http://cran.r-project.org/index.html 。如果还没有安装R,该网站也提供安装说明和遇到问题时的求助信息。
CRAN页面左侧的“Packages”链接可让你按字母顺序或发
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



